文本分類結合人工智能信息獲取論文

時間:2022-06-07 05:40:00

導語:文本分類結合人工智能信息獲取論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

文本分類結合人工智能信息獲取論文

編者按:本文主要從問題的提出;文本分類技術的基本原理;文本分類技術在數字圖書館中的應用分析;結束語進行論述。其中,主要包括:數字圖書館在我國高校、政府以及科研機構都得到了有效發展、文本分類技術是人工智能和信息獲取技術的結合、數字圖書館是一個巨大的知識寶庫、文本分類是指根據文本的內容或屬性,將大量的文本歸到一個或多個類別的過程、文本分類的映射規則是系統根據已經掌握的每類若干樣本的數據信息、系統使用訓練樣本進行特征選擇和分類器訓練、特征選擇的結果是初始特征項集合的子集、文本特征項、文本的特征項應該具特點、特征項選擇、特征值的提取等,具體請詳見。

一、問題的提出

隨著計算機技術與網絡技術的普及和發展,數字圖書館在我國高校、政府以及科研機構都得到了有效發展。數字圖書館來源于圖書館館藏的數字化從而充分地高效地利用圖書館信息資源。現有的圖書館資料主要是書籍、雜志、報刊、技術報告等。人們希望利用因特網把所有的數字化的資源站點連接起來,這樣要管理的信息除了圖書館中的文本信息外,還希望管理博物館、展覽館、檔案館、學術組織以及其它Web站點上千差萬別的信息。

面對浩瀚無邊的數字化信息使得數字圖書館關鍵核心技術之一的文本分類成為一個日益重要的研究領域。文本分類技術是人工智能信息獲取技術的結合,是基于內容的自動信息管理的核心技術。

二、文本分類技術的基本原理

數字圖書館是一個巨大的知識寶庫。數字圖書館的服務重點是以人為主,而不是以館以書為主。數字圖書館的特點使得其服務要深入到知識的層次,通過對信息內容的組織和加工的自動化,把資源組織成一個知識系統。文本的自動分類是為提高信息內容服務的質量而產生的文本處理技術。它們的出現使得信息內容服務出現了新的局面。

文本分類是指根據文本的內容或屬性,將大量的文本歸到一個或多個類別的過程。文本分類算法是有監督學習的算法,它需要有一個己經手工分好類的訓練文檔集,文檔的類別已標識,在這個訓練集上構造分類器,然后對新的文檔分類。如果訓練集的類別未標識,就是無監督的學習算法,無監督學習算法從數據集中找出存在的類別或者聚集。

從數學角度來看文本分類是個映射程,它將未標明類別的文本映射到已有的類別中,用數學公式表示如下:

f:A→B其中,A為待分類的文本集合,B為分類體系中的類別集合

文本分類的映射規則是系統根據已經掌握的每類若干樣本的數據信息,總結出分類的規律性而建立的判別公式和判別規則。然后在遇到新文本時,根據總結出的判別規則,確定文本相關的類別。但是由于大量的文本信息是一維的線性字符流,因此文本自動分類首先要解決的問題就是文本信息的結構化。在模式識別領域里,把文本信息的結構化稱為"特征提取"。在文本信息內容處理領域,這項工作被稱為文本的"向量空間表示"。其基本流程如圖1所示:

系統使用訓練樣本進行特征選擇和分類器訓練。系統根據選擇的特征將待分類的輸入樣本形式化,然后輸入到分類器進行類別判定,得到輸入樣本所屬的類別。

三、文本分類技術在數字圖書館中的應用分析

為了提高數字圖書館中分類準確率,加快系統運行速度,需要對文本特征進行選擇和提取。兩者的差別在于,特征選擇的結果是初始特征項集合的子集,而特征提取的結果不一定是初始特征項集合的子集(例如初始特征項集合是漢字,而結果可能是漢字組成的字符串)。特征選擇、提取和賦權方法對分類結果都有明顯影響。

(一)文本特征項

文本的特征項應該具有以下特點:特征項是能夠對文本進行充分表示的語言單位;文本在特征項空間中的分布具有較為明顯的統計規律;文本映射到特征項空間的計算復雜度不太大。對于計算機來說,文本就是由最基本的語言符號組成的字符串。西文文本是由字母和標點符號組成的字符串,中文文本就是由漢字和標點符號組成的字符串。

概念也可以作為特征項,"計算機"和"電腦"具有同義關系,在計算文檔的相似度之前,應該將兩個詞映射到同一個概念類,可以增加匹配的準確率。但是概念的判斷和處理相對復雜,自然語言中存在同義關系(如老鼠、耗子)、近義關系(如憂郁、憂愁)、從屬關系(如房屋、房頂)和關聯關系(如老師、學生)等各種關系。如何很好地劃分概念特征項,確定概念類,以及概念類的數量都是需要反復嘗試和改進的問題。

(二)特征項選擇

不同的特征項對于文檔的重要性和區分度是不同的,通常高頻特征項在多個類中出現,并且分布較為均勻,因此區分度較小;而低頻特征項由于對文檔向量的貢獻較小,因此重要性較低。

文檔頻次就是文檔集合中出現某個特征項的文檔數目在特征項選擇中計算每個特征項在訓練集合中出現的頻次,根據預先設定的閩值去除那些文檔頻次特別低和特別高的特征項。

信息增益方法是機器學習的常用方法,在分類問題中用于度量特征項在某種分類下表示信息量多少,通過計算信息增益得到那些在正例樣本中出現頻率高而在反例樣本中出現頻率低的特征項,以及那些在反例樣本中出現頻率高而在正例樣本中出現頻率低的特征項。

(三)特征值的提取

在文本分類中,我們稱用來表示文檔內容的基本單元為特征,特征可以是詞、短語。目前,大多數有關文本分類的文獻基本上采用詞的集合來表示文檔的內容。采用短語來表示文檔存在兩個缺點:第一短語的提取較困難,特別是準確的提取,需要較多的自然語言處理技術,而這些技術還不夠成熟;第二采用詞組表示文檔在信息檢索和文本分類中的效果并不比基于詞的效果好,有時反而更差。

四、結束語

近年來,國內外數字圖書館的建設發展地很快,各國政府在建設,而且大學、企事業等也在建設各自的數字圖書館。隨著計算機技術和網絡技術的不斷成熟,困擾數字圖書館發展的一些技術瓶頸也逐漸地被解決了。隨著數字圖書館中對精度要求較高,而且要處理的文本數據量也相當龐大,今后對文本分類技術在數字圖書館中應用的精度和速度有待進一步改進。