自然語言檢索中概念控制

時間:2022-03-16 11:53:00

導語:自然語言檢索中概念控制一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

自然語言檢索中概念控制

1概念控制及其實現基礎

1.1概念控制的目的

概念并不是孤立存在的,一個概念總是與其他概念之間存在著各種各樣的關系,如上下位關系、同義關系、反義關系等。關鍵詞也會出現一詞多義、一義多詞以及同一事物多種表述的情形。根據概念之間的相互聯系,在詞的概念含義層次上建立聯系,為檢索用戶提供相關的結果分析是概念控制的一個應用前景。例如,“體育”這一概念根據上下立類的關系可以細分為足球、排球、奧運會、亞運會等,單純的字面匹配會漏檢甚至誤檢很多與之相關的信息。通過概念控制就可以將一個上位類的概念擴展為多個子概念。體育新聞的檢索就可以擴展為:體育新聞、球類(足球、籃球、排球)、田徑運動、體育賽事(奧運會、亞運會、世界杯)等概念,同時對那些具有下位概念的詞匯可以再次擴展,這樣就大大地提高了檢索效果。“計算機”和“電腦”是同一事物的不同表述,機械匹配的話就只能檢索到有關“計算機”或“電腦”的信息,采用概念控制的相關方法可以將這些相同概念的詞匯統一到檢索匹配中,這樣就擴大了檢索面,提高了檢全率。在自然語言檢索系統中進行慨念控制,就是把信息檢索從目前的基于關鍵詞層面提高到基于知識(概念)層面,能夠從概念意義層次上來認識和處理檢索用戶的請求,從而提高檢全率和檢準率。

1.2概念控制的主要方法

目前雖然沒有一個檢索系統可以完全實現理想狀態下的高層次的語義檢索,但有些自然語言檢索系統已經采用概念控制查詢。主要的方法是利用知識體系建立概念間的關系進行查詢擴展,深度匹配,優化檢索效果。

概念控制的內容包括:提問句概念語義塊的抽取,從提問句中切分出概念詞或詞組等語義單位;基于知識體系對抽取出的語義單元進行概念擴展;概念的組配,將選擇出的各檢索單位基于知識體系的組織信息轉換成體現概念關系的邏輯表達式。

概念抽取不等同于分詞處理,其中包括普通概念的識別和人名、地名、事件名等專有名詞的識別,并進行概念提取。對于普通的概念字串采用逆向最長匹配算法(或正向最長匹配算法),并綜合切割標記等分詞手段切分就可以進行概念抽取。對于詞典中未收錄的概念詞,可以采取基于句模、句子結構分析、詞和詞組構成規則、句內結構性標志字、標點符號等來進行切分。除切割標志外,已知的詞也可作切割標記使用。

自然語言檢索系統的本質是查詢滿足特定主題概念的文本,因此被檢索的內容不是和提問句的字面匹配。對提問進行分析后抽取出的主要是概念或概念的組合,需要進行概念匹配,這就需要對檢索句中的詞進行概念擴展,即考慮提問句中詞的同近義詞、上下位詞和關聯詞。可以通過知識體系保存同近義關系、上下位關系和其他關聯關系,當處理用戶檢索需求時,通過查詢知識體系可對提問句中的詞按概念進行擴展。如“我國今天的體育新聞”,可以通過知識體系對“體育”進行擴展,查詢包括“籃球”、“賽車”、“奧運會”、“世界杯”等方面的內容,“今天”一詞指檢索者進行檢索時的日期,因此需通過規則將“今天”映射為檢索時的時間,將“我國”擴展為“我國”V“中國”V“中華人民共和國”(知識體系中可能只存在“中國”和“中華人民共和國”之間的同義關系,沒有“我國”這一詞條)。

概念組配,按其內在邏輯關系,可分為限定組配和相交組配。限定組配將一個概念的內涵增加到另一個概念的內涵中,從而加深概念的內涵,縮小或限定了概念的外延。相交組配將具有共同的屬概念、概念之間具有相交關系、外延部分重合的概念組合成一個新概念。在構成查詢表達式時,基于知識體系的擴展詞和原詞間為“邏輯加”的關系。如“美麗”擴展為“美麗”V“漂亮”V……V“標志”。提問句中語義塊間的關系通常為邏輯乘的關系。語義塊間的概念組配通常存在如下邏輯關系:(1)主謂結構,描述的是一種陳述與被陳述的關系。(2)偏正結構,描述的是一種修飾與被修飾的關系。(3)動賓結構,描述的是一種作用和被作用的關系。(4)并列結構,描述的是一種成分間的并列關系[1]。主謂結構、偏正結構和動賓結構間為“邏輯乘”關系,并列結構為“邏輯加”關系。但通過對檢索提問句進行分析后發現,部分并列結構在用戶的檢索概念中為“邏輯乘”關系,于是采用通過句模分析和指示標志來確定語義塊間的“邏輯乘”或“邏輯加”關系。提問句語義塊之間的“邏輯加”關系通常存在顯式指示標志,如“或”等。分析傳統的主、謂、賓、定、狀、補六大成分與句型的關系,可以輔助獲取語義塊的邏輯關系。檢索提問句的語義概念和提問句的結構緊密相關。需要分析謂語的性質、句子的結構,如“把”字、“被”字句等。

概念控制的3項關鍵技術中,概念擴展和概念組配都離不開知識體系的支持,知識體系的好壞直接關系到檢索效果的優劣。

1.3概念控制系統

國內外已有一些檢索系統在不同程度上實現了概念控制,代表系統有首信搜索引擎、孫悟空、UMLS等。下面以UMLS為例進行介紹

UMLS(UnifiedMedicalLanguageSystem,美國統一醫學語言系統),是美國國立醫學圖書館(NLM)于1986年開始研制的一項長期開發研究計劃,旨在克服計算機生物醫學信息檢索中的兩個顯著障礙(相同的概念具有不同的表達方式;有用的信息分散在不同的數據庫系統中),使用戶很容易地跨越了在病案系統、文獻摘要數據庫、全文數據庫以及專家系統之間的屏障。UMILS包括4個部分:專家詞典、超級敘詞表、語義網絡、情報源圖譜。專家詞典是一個包含眾多生物醫學詞匯的英語詞典,可以確定英語詞匯的范圍以及識別生物醫學術語和文本詞的詞形變異,也為超級敘詞表提供了確定范圍的醫學術語和詞匯。超級敘詞表是生物醫學概念、術語、詞匯及其涵義等級范疇的廣泛集成。語義網絡是為建立概念、術語間錯綜復雜的關系而沒計的,它為超級敘詞表中所有慨念提供了語義類型、語義關系和語義結構。情報源圖譜是一個關于生物醫學機讀情報資源的數據庫,其目的是利用超級敘詞表和語義網絡實現以下功能:確定情報源與特定提問的相關性,以便選取最合適的情報源;為用戶提供特定情報源的范圍、功能和檢索條件等人工可讀的信息;自動鏈接相關情報源;在一個或多個情報源中自動檢索并自動組織檢索的結果。2支持概念控制的知識體系

實現概念控制離不開知識系統的支持,沒有合理的知識系統,就無法實現概念擴展和概念組配,也就無法達到概念控制的目的。進行概念控制的核心是構建合適的知識體系。

2.1知識體系及其形式

目前,有關知識體系的研究主要集中在對Ontology的探討中。國內關于Ontology的中文譯法也不統一,有“知識體系”、“本體”、“概念集”、“概念體系”、“本體論”等多種提法。Ontology是一個源于哲學的概念[2],原意指關于存在及其本質和規律的學說,后來被人工智能研究領域引入,特指對共享概念模型的明確的形式化規范說明。Ontology能夠將詞匯有關概念關系顯式地表示出來,從而將術語的語義和概念關系顯式化表示出來,因而在語義查詢、概念控制方面發揮著重要作用。

Ontology中的概念表示一般采用框架結構,使用槽來表示概念的屬性以及概念之間的關系[3]。借助概念之間的關系,Ontology在整體上形成了一個語義網。概念之間有4種基本關系:part-of表達概念部分與整體的關系;kind-of表達概念間的繼承關系,類似面向對象中的父類和子類之間的關系;instance-of表達概念間實例和概念之間的關系,類似面向對象中的對象和類之間的關系;attribute-of表達某個概念是另一個概念的屬性,例如概念“價格”可以作為概念“桌子”的一個屬性。在實際應用中,概念之間的關系將不會局限于上述4種關系,可以根據特定領域的具體情況定義相應的關系。

2.2語義網絡

概念與概念之間有著橫向或縱向的聯系,形成了語義網。語義網絡(SemanticNetwork)是美國語言學家奎廉(R.Quilian)于1968年提出的。1972年美國人工智能專家西蒙斯(R.F.Simmons)和斯樂康(J.Slocum)將語義網絡用于自然語言理解系統中。語義網絡是當今網絡的擴展,這可擴展的網絡給出了信息明確的定義,同時優化了人與汁算機的合作[4]。

如何構建語義網絡更好地將信息定義明確化目前仍沒有統一的準則,這涉及到語言學、認知心理學等學科方面的知識。但是構建語義網絡的統一原則都是將概念之間的橫向或縱向聯系顯式化,組織成一個有機的結構形式。

Wordnet是由普林斯頓大學認知科學實驗室開發的在線詞匯參照系統。它將所有英語詞匯分成5類:名詞、動詞、形容詞、副詞和功能詞。名詞按照3種關系被加以組織:部分關系、上下位關系以及物質與材料。同時有反義的名詞被標注了反義關系,這樣形成了一個互相高度連通的名詞網絡。動詞的多義性比名詞更高,在Wordnet中動詞被組織成各種推演(蘊涵)關系,而組織動詞的不同關系可以被總結成一個覆蓋它們的基礎詞匯的推演,包括四種[5]。

2.3概念詞表

知識體系中除了概念間相互關系形成語義網絡,對于每個單獨的概念還必須有概念詞表。沒有概念詞表的語義網絡只是一個單純的概念關系網而不是與詞匯相結合的知識體系。Hownet中的詞表就是一個概念詞表。Hownet是一個以漢語和英語的詞語所代表的概念為描述對象,知網是一個利用一種知識詞典描述語言來描述概念與概念之間的關系以及概念的屬性與屬性之間的關系的知識系統[6]。Hownet包括詞表和義原體系表。詞表中記錄了每一個詞語的概念及其描述,每一個概念用一個記錄來表示,如下所示:

其中NO.為概念編號,W_C,G_C,E_C分別是漢語的詞語、詞性和例子,W_E,G_E,E_E分別是英語的詞語、詞性和例子,DEF是知網對于該概念的定義,是知網的核心。每個DEF被稱為一個語義表達式,采用知識描述語言,將與詞匯有關概念關系采用顯示的表示出來。如從概念編號為017144的DEF可知“打”的概念之一是“鍛煉”,屬于體育范疇。

2.4構建知識體系的問題

構建一個適用合理的知識體系對于改善檢索效果至關重要。但目前已成形的知識體系都存在一些不足。

構建一個知識體系最重要的是詞的構造性信息,不完善的知識體系中被遺漏的信息大部分是關于詞的構造性信息而非事實性信息。傳統詞典的定義盡力涵蓋了有關每個詞義的所有事實性信

息,但卻忽略了詞匯概念之間內在的各種關系[7]。

如何選擇知識體系的用詞目前都在探討和實驗中,世界知識體系(Ontology)給出了一些選詞的規定[8]:語義網絡的非葉子節點不可以是多個類的詞,如“蔬菜和水果”;也不可以是沒有下位類的選詞,如“職業者”。要避免使用混合類的詞,不要將敘述屬性和抽象概念的詞進行搭配作為語義網絡的非葉子節點,如“空杯子”、“破車”,要避免選詞時加入個人的判斷因素,將一些主觀的屬性值與類名組合成非葉子節點,如“熱咖啡”、“明亮的車”。但是要使知識體系能理想地添加新的類、新的屬性和關系,僅有這些規定是遠遠不夠的。

是將概念領域化還是通用化各有優劣,目前都沒有定論。通用的知識體系有Wordnet、Hownet等,專門領域的知識體系有UMLS和首信等。

構建語義網絡結構本身存在一定的缺陷。用有限的結點和弧不可能代表萬事萬物及其相互之間的所有聯系,語義網絡對知識的表達有一定的局限性。單純增加概念和聯系會大大增加網絡的復雜度。語義網絡結構本身沒有語義上的約定,不具備邏輯系統那樣的有效性。單層的語義網絡結構容易產生語義解釋循環或語義悖論。

國外語義研究的理論與方法,并不完全通用。漢語是語義型語言,具有語義先決性、句法強制性和語用選定性等特點。漢語語義結構上的復雜性與多變性以及詞與詞之間無自然界限、無詞尾形式標志、無形態變化的“三無”現象的存在,給語義分析帶來了困難。

知識的獲取與表示,其中較難解決的問題就是如何把復雜多樣的專業知識系統化。如果把人工智能技術應用到一個多學科綜合的檢索系統中,如何辨別某個多義詞當前的具體含義,如何辨析用戶特定的需求,這些都有待于繼續研究。

要想使計算機準確地分析、表達和傳輸知識,必須使它具備理解自然語言的能力。目前對自然語言的處理,雖然已從語法階段上升到語義階段,但對自然語言的理解能力還限制在一些規范的語句和語法范圍內,這就決定了智能信息檢索系統所能具有的智能化表達程度。

3結束語

持續增長的海量網絡信息讓傳統的檢索方式面臨著嚴重挑戰,也加重了人們的檢索負擔。在自然語言檢索系統中采用概念控制就是為了優化檢索效果。而實現概念控制需要有合適的概念體系。目前沒有一個標準的Ontology構造方法,對當前已有的Ontology的性能評估也沒有一個統一的標準,這些都需要進一步研究。不過在構造特定領域Ontology的過程中,有一點是得到大家公認的,那就是需要該領域專家的參與。