神經網絡文本分類范文
時間:2023-05-31 15:22:29
導語:如何才能寫好一篇神經網絡文本分類,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
P鍵詞:深度學習;文本分類;多類型池化
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)35-0187-03
1 引言
為了進行分類,我們建立句子模型來分析和表示句子的語義內容。句子模型問題的關鍵在于一定程度上的自然語言理解。很多類型的任務需要采用句子模型,包括情感分析、語義檢測、對話分析、機器翻譯等。既然單獨的句子很少或基本不被采用,所以我們必須采用特征的方式來表述一個句子,而特征依賴于單詞和詞組。句子模型的核心是特征方程,特征方程定義了依據單詞和詞組提取特征的過程。求最大值的池化操作是一種非線性的二次抽樣方法,它返回集合元素中的最大值。
各種類型的模型已經被提出。基于成分構成的方法被應用于向量表示,通過統計同時單詞同時出現的概率來獲取更長的詞組。在有些情況下,通過對詞向量進行代數操作生成句子層面的向量,從而構成成分。在另外一些情況下,特征方程和特定的句法或者單詞類型相關。
一種核心模型是建立在神經網絡的基礎上。這種模型包含了單詞包或者詞組包的模型、更結構化的遞歸神經網絡、延遲的基于卷積操作的神經網絡。神經網絡模型有很多優點。通過訓練可以獲得通用的詞向量來預測一段上下文中單詞是否會出現。通過有監督的訓練,神經網絡能夠根據具體的任務進行良好的調節。除了作為強大的分類器,神經網絡模型還能夠被用來生成句子[6]。
我們定義了一種卷積神經網絡結構并將它應用到句子語義模型中。這個網絡可以處理長度不同的句子。網絡中的一維卷積層和多類型動態池化層是相互交錯的。多類型動態池化是一種對求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化體現在兩個方面。第一,多類型池化操作對一個線性的值序列進行操作,返回序列中的多個數值而不是單個最大的數值。第二,池化參數k可以被動態的選擇,通過網絡的其他參數來動態調整k的值。
卷積層的一維卷積窗口對句子特征矩陣的每一行進行卷積操作。相同的n-gram的卷積窗口在句子的每個位置進行卷積操作,這樣可以根據位置獨立地提取特征。一個卷積層后面是一個多類型動態池化層和一個非線性的特征映射表。和卷積神經網絡在圖像識別中的使用一樣,為豐富第一層的表述,通過不同的卷積窗口應用到句子上計算出多重特征映射表。后續的層也通過下一層的卷積窗口的卷積操作計算出多重特征映射表。最終的結構我們叫它多類型池化的卷積神經網絡。
在輸入句子上的多層的卷積和動態池化操作產生一張結構化的特征圖。高層的卷積窗口可以獲取非連續的相距較遠的詞組的句法和語義關系。特征圖會引導出一種層級結構,某種程度上類似于句法解析樹。這種結構不僅僅是和句法相關,它是神經網絡內部所有的。
我們將此網絡在四種場景下進行了嘗試。前兩組實驗是電影評論的情感預測[2],此網絡在二分和多種類別的分類實驗中的表現都優于其他方法。第三組實驗在TREC數據集(Li and Roth, 2002)上的6類問題的分類問題。此網絡的正確率和目前最好的方法的正確率持平。第四組實驗是推特的情感預測,此網絡將160萬條微博根據表情符號自動打標來進行訓練。在手工打標的測試數據集上,此網絡將預測錯誤率降低了25%。
本文的概要如下。第二段主要闡述MCNN的背景知識,包括核心概念和相關的神將網絡句子模型。第三章定義了相關的操作符和網絡的層。第四章闡述生成的特征圖的處理和網絡的其他特點。第五章討論實驗和回顧特征學習探測器。
2 背景
MCNN的每一層的卷積操作之后都伴隨一個池化操作。我們先回顧一下相關的神經網絡句子模型。然后我們來闡述一維的卷積操作和經典的延遲的神經網絡(TDNN)[3]。在加了一個最大池化層到網絡后,TDNN也是一種句子模型[5]。
2.1 相關的神經網絡句子模型
已經有很多的神經網絡句子模型被描述過了。 一種比較通用基本的模型是神經網絡詞包模型(NBoW)。其中包含了一個映射層將單詞、詞組等映射到更高的維度;然后會有一個比如求和之類的操作。結果向量通過一個或多個全連接層來進行分類。
有以外部的解析樹為基礎的遞歸神經網絡,還有在此基礎上更進一步的RNN網絡。
最后一種是以卷積操作和TDNN結構為基礎的神經網絡句子模型。相關的概念是動態卷積神經網絡的基礎,我們接下來介紹的就是它。
2.2 卷積
一維卷積操作便是將權重向量[m∈Rm]和輸入向量[s∈Rs]進行操作。向量m是卷積操作的過濾器。具體來說,我們將s作為輸入句子,[si∈R]是與句子中第i個單詞相關聯的單獨的特征值。一維卷積操作背后的思想是通過向量m和句子中的每個m-gram的點積來獲得另一個序列c:
[ci=mTsi-m+1:i (1)]
根據下標i的范圍的不同,等式1產生兩種不同類型的卷積。窄類型的卷積中s >= m并且會生成序列[c∈Rs-m+1],下標i的范圍從m到s。寬類型的卷積對m和s的大小沒有限制,生成的序列[c∈Rs+m-1],下標i的范圍從1到s+m-1。超出下標范圍的si窄(i < 1或者i > s)置為0。窄類型的卷積結果是寬類型的卷積結果的子序列。
寬類型的卷積相比于窄類型的卷積有一些優點。寬類型的卷積可以確保所有的權重應用到整個句子,包括句子收尾的單詞。當m被設為一個相對較大的值時,如8或者10,這一點尤其重要。另外,寬類型的卷積可以確保過濾器m應用于輸入句子s始終會生成一個有效的非空結果集c,與m的寬度和s句子的長度無關。接下來我們來闡述TDNN的卷積層。
4 驗與結果分析
我們對此網絡進行了4組不同的實驗。
4.1 電影評論的情感預測
前兩組實驗是關于電影評論的情感預測的,數據集是Stanford Sentiment Treebank.實驗輸出的結果在一個實驗中是分為2類,在另一種試驗中分為5類:消極、略微消極、中性、略微積極、積極。而實驗總的詞匯量為15448。
表示的是電影評論數據集情感預測準確率。NB和BINB分別表示一元和二元樸素貝葉斯分類器。SVM是一元和二元特征的支撐向量機。在三種神經網絡模型里――Max-TDNN、NBoW和DCNN――模型中的詞向量是隨機初始化的;它們的維度d被設為48。Max-TDNN在第一層中濾波窗口的大小為6。卷積層后面緊跟一個非線性化層、最大池化層和softmax分類層。NBoW會將詞向量相加,并對詞向量進行非線性化操作,最后用softmax進行分類。2類分類的MCNN的參數如下,卷積層之后折疊層、動態多類型池化層、非線性化層。濾波窗口的大小分別7和5。最頂層動態多類型池化層的k的值為4。網絡的最頂層是softmax層。5類分類的MCNN有相同的結構,但是濾波窗口的大小分別為10和7,k的值為5。
我們可以看到MCNN的分類效果遠超其他算法。NBoW的分類效果和非神經網絡算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因為過度池化的原因,丟棄了句子太多重要的特征。除了RecNN需要依賴外部的解析樹來生成結構化特征,其他模型都不需要依賴外部資源。
4.2 問題分類
問題分類在問答系統中應用非常廣泛,一個問題可能屬于一個或者多個問題類別。所用的數據集是TREC數據集,TREC數據集包含6種不同類別的問題,比如一個問題是否關于地點、人或者數字信息。訓練集包含5452個打標的問題和500個測試集。
4.3 Twitter情感預測
在我們最后的實驗里,我們用tweets的大數據集進行訓練,我們根據tweet中出現的表情符號自動地給文本進行打標簽,積極的或是消極的。整個數據集包含160萬條根據表情符號打標的tweet以及400條手工標注的測試集。整個數據集包含76643個單詞。MCNN的結構和4.1節中結構相同。隨機初始化詞向量且維度d設為60。
我們發現MCNN的分類效果和其他非神經網絡的算法相比有極大的提高。MCNN和NBoW在分類效果上的差別顯示了MCNN有極強的特征提取能力。
5 結語
在本文中我們闡述了一種動態的卷積神經網絡,它使用動態的多類型池化操作作為非線性化取樣函數。此網絡在問題分類和情感預測方面取得了很好的效果,并且不依賴于外部特征如解析樹或其他外部資源。
參考文獻
[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.
[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.
[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.
[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
篇2
關鍵詞: 電子郵件; 分類模型; 特征提取; 垃圾郵件; 主成分分析
中圖分類號: TN915.08?34 文獻標識碼: A 文章編號: 1004?373X(2017)01?0077?03
Abstract: The E_mail classification is conducive to filter out the spam mail and save the network resources. In order to improve the accuracy of the E_mail classification, an E_mail classifier model using improved support vector machine is proposed. The original features of E_mail are extracted, and selected with the principal component analysis to reduce the feature quantity and improve the E_mail classification efficiency. The support vector machine is used to establish the E_mail classifier. The parameter selection method of the traditional support vector machine was improved to perfect the E_mail classification effect. The standard database UCI of the E_mail classification is used to analyze the classification performance. The results show that the improved support vector machine has solved the insufficient of the current E_mail classification model, and obtained the satisfied E_mail classification effect, which can help managers to block the spam mail.
Keywords: E_mail; classification model; feature extraction; spam mail; principal component analysis
0 引 言
隨著經濟水平的不斷提高,家家戶戶有了計算機,網民越來越多。電子郵件(E_mail)是一種人們在網絡上交流的常用工具,受到了人們的廣泛關注[1]。網絡是一個新興事件,網絡中有大量垃圾郵件,它們不僅浪費網絡資源,給人們工作帶來困擾,而且給一些不法分子提供了可乘之機,因此,對E_mail進行有效分類找出其中的垃圾]件具有重要的實際意義[2]。
E_mail與文本有很多相似之處,為此一些學者將文本分類方法引入E_mail分類中,通過分類算法將郵件分為正常郵件和垃圾郵件[3]。同時E_mail是一種半結構化文本,具有自身的特殊性,采用傳統文本分類方法用于E_mail分類,分類的精度低,郵件錯分現象嚴重,導致一些正常郵件被攔截,而且一些垃圾郵件沒有被過濾掉[4]。近些年來,一些學者將模式識別技術引入到E_mail分類中,首先提取E_mail的原始特征,然后采用K近鄰算法和神經網絡等建立E_mail分類模型,獲得了不錯的E_mail分類效果[5]。E_mail的原始特征維數高,若直接輸入到K近鄰算法和神經網絡進行分類,分類時間長、效率低,而且可能存在一些無用特征,對E_mail分類效果產生干擾[6]。特征篩選可以去除無用特征,減少特征數量,提高學習效率[7]。K近鄰算法假設E_mail的類別與特征間是線性變化關系,這與實際情況不相符,分類精度要低于神經網絡[2]。神經網絡雖然可以描述E_mail的類別與特征間的變化關系,但要求樣本多,網絡結構復雜,當特征維數高時,出現“維數災”現象的概率高[8]。支持向量機(Support Vector Machine,SVM)是一種新型機器學習算法,避免了“維數災”現象的出現,且分類效果要優于神經網絡,在E_mail分類中得到了廣泛的應用[9]。支持向量機參數優化問題一直懸而未解,影響在E_mail分類中的應用范圍[10]。
針對當前E_mail分類模型存在的難題,為了提高郵件分類的精度,提出一種改進支持向量機的電子郵件分類器模型(ISVM),結果表明,改進支持向量機獲得了良好的電子郵件分類效果,可以滿足垃圾郵件處理的要求。
1 E_mail分類模型的工作原理
E_mail分類模型的工作原理如圖1所示。從圖1可以看出,特征提取和選擇是獲得較優E_mail分類結果的基礎,當前E_mail特征提取和選擇研究少,主要采用人工憑經驗確定特征的數量,特征選擇具有主觀性,影響E_mail分類器的構建;E_mail的分類器是獲得理想分類結果的關鍵,雖然SVM可以描述E_mail的變化特點,但如果核函數及參數選擇不合理,E_mail分類效果很差,本文采用布谷鳥搜索算法選擇SVM的核函數參數,以獲得高精度的E_mail分類結果。
2 改進支持向量機
2.1 標準支持向量機
支持向量機根據最優分類超平面將訓練樣本分開,而且類別之間的間隔最大。對于包含兩個樣本的訓練集,如果超平面可將它們全部分開,表示訓練樣本集是線性可分的,訓練集的數量為那么訓練集描述為:其中表示樣本輸入;表示樣本的類別。支持向量機的超平面如圖2所示。
基于支持向量機的懲罰參數和徑向基核參數影響的性能,本文選擇布谷鳥搜索算法確定和的值。
2.2 布谷鳥搜索算法
布谷鳥搜索算法(CS)是一種應用范圍很廣的智能搜索算法,假設有三種狀態,具體如下:
(1) 一只布谷鳥僅下一個蛋,并隨機分布于鳥巢中。
(2) 部分較優的鳥巢直接進入到下一代,組成新的鳥巢[11]。
(3) 每一個鳥巢中的布谷鳥蛋被宿主發現的概率是相等的。
將支持向量機參數和編碼成為一個鳥巢位置,根據訓練樣本計算每一組參數的和目標函數值,并選擇目標函數值最優者作為當前最優鳥巢,然后對布谷鳥搜索的路徑和位置不斷迭次,產生新一代的鳥巢,當迭代次數達到最大迭代次數時,最優鳥巢位置對應的和即為找到的最優參數。
3 改進支持向量機的E_mail分類
改進支持向量機的E_mail分類步驟為:
Step1:收集相應數量的E_mail,并進行一些預處理,如刪除其中沒有意義的數據,將它們轉換為相應的格式。
Step2:提取E_mail特征,通過詞和類別的互信息量作為E_mail原始特征,對它們進行歸一化處理。
Step3:采用主成分分析法對E_mail原始特征進行選擇,提取最優的特征子集,并根據特征子集對E_mail訓練樣本和測試樣本進行處理,減少數據規模。
Step4:將訓練樣本輸入到支持向量機進行訓練,并采用布谷鳥搜索算法確定最優參數和建立E_mail分類器。
Step5:采用測試樣本對E_mail分類器的性能進行測試和分析。
4 實驗結果與分析
為了分析ISVM的E_mail分類性能,選擇郵件分類的標準數據集――UCI數據庫作為研究對象,該數據集共有4 601個樣本,每一個樣本有58個特征,垃圾郵件的標簽為“1”,正常郵件的標簽為“0”,在Matlab 2014工具箱編程中實現E_mail分類模型。由于數據庫中的樣本比較多,隨機選擇30%的樣本進行仿真實驗,訓練樣本和測試樣本數量采用31的形式進行劃分。采用分類準確率(Precision)、分類召回率(recall)對結果進行分析,具體如下:
5 結 語
為了消除垃圾郵件對人們工作和生活的負面影響,提高電子郵件分類精度,本文提出一種改進支持向量機的電子郵件分類模型,結果表明,改進支持向量機解決了當前電子郵件分類模型存在的不足,獲得了理想的電子郵件分類效果,減少了系統分發郵件的工作量,分類結果可以幫助管理人員攔截垃圾郵件,具有廣泛的應用前景。
參考文獻
[1] 蒲筱哥.Web自動郵件分類技術研究綜述[J].情報W報,2009,28(2):233?241.
[2] 劉赫,劉大有,裴志利,等.一種基于特征重要度的郵件分類特征加權方法[J].計算機研究與發展,2009,46(10):1693?1703.
[3] 陳東亮,白清源.基于詞頻向量的關聯郵件分類[J].計算機研究與發展,2009,46(2):464?469.
[4] 吳江寧,劉巧鳳.基于圖結構的中文郵件表示方法研究[J].情報學報,2010,32(4):618?624.
[5] 王波,黃迪明.遺傳神經網絡在電子郵件過濾器中的應用[J].電子科技大學學報,2005,34(4):505?508.
[6] 李惠娟,高峰,管曉宏,等.基于貝葉斯神經網絡的垃圾郵件過濾方法[J].微電子學與計算機,2005,22(4):107?111.
[7] 陳華輝.一種基于潛在語義索引的垃圾郵件過濾方法[J].計算機應用研究,2000,17(10):17?18.
[8] 宋勝利,王少龍,陳平.面向郵件分類的中文郵件語義表示方法[J].西安電子科技大學學報,2013,40(2):89?97.
[9] 張兢,侯旭東,呂和勝.基于樸素貝葉斯和支持向量機的郵件智能分析系統設計[J].重慶理工大學學報(自然科學版),2010,24(1):77?81.
篇3
摘 要 水系是重要的地性線,常被看成是地形的“骨架”,對其他要素有一定的制約作用。快速提取遙感影像上水系的線性特征,獲
>> 一種基于非監督判別語義特征提取的文本分類算法 基于監督局部線性嵌入特征提取的高光譜圖像分類 基于提取網站層次結構的網頁分類方法 基于自動機模型的構件集成軟件測試要素的提取 基于AAM關鍵特征點提取的人臉照片分類方法的研究與應用 基于支持向量機分類水平集方法的圖像特征提取研究 基于局部序列圖像的虹膜特征提取與分類研究 基于分類結果的多光譜遙感影像端元提取方法 基于樣本熵的運動想象腦電信號特征提取與分類方法 基于小波包與共空間模式的腦電信號特征提取與分類 基于動態特征提取和神經網絡的數據流分類研究 基于局部保持投影的神經尖峰電位特征提取與分類 中文文本分類中基于概念屏蔽層的特征提取方法 解題信息的分類與提取 基于風險導向的內部控制監督要素的實施方案 基于光譜特征的監督分類方法在黃河口濕地的應用比較 結合均值漂移的基于圖的半監督圖像分類 基于錨點建圖的半監督分類在遙感圖像中的應用 基于紋理分類的高分辨率衛星城市用地信息提取 基于局部學習的半監督多標記分類算法 常見問題解答 當前所在位置:l.
[4]游代安.GIS輔助的遙感圖像處理與分析技術的研究[D].信息工程大學,2001.
[5]郭德方.遙感圖像的計算機處理和模式識別[M].電子工業出版社,1984.
[6]王剛,李小曼,田杰.幾種TM影像的水體自動提取方法比較[J].測繪科學,2008(03).
篇4
關鍵詞: 網絡購物評論; 文本分類; SVM; 多核學習
中圖分類號:F406.2 文獻標識碼:A 文章編號:1006-8228(2012)04-43-03
A classification method of online reviews based on MKL-SVM
Hu Han
(Dujiangyan north street elementary school experiment foreign language school, Dujiangyan, Sichuan 610054, China)
Abstract: An online shopping website accumulates a large number of customer reviews for goods and enterprise services. Support Vector Machine (SVM) is an efficient classification method and can be used to track and manage customer reviews. But SVM has some weaknesses, for example, its slow speed of training convergence and uneasy raise of classification accuracy. The author presents the use of heterogeneous nuclear function of different characteristics, which may resolve SVM’s problem of weak generalization ability to learn and improve SVM classification accuracy. Through classification of online customer reviews, shopping sites may resolve the issues of critical analysis of mass data, and effectively help enterprises to improve service levels.
Key words: customer review; text classification; SVM; multiple kernel learning
0 引言
購物網站都建立有顧客評論系統,收集顧客對于商品及網站服務的體驗感受。由于購物評論表達形式繁雜、內容隨意、句型多樣,給企業有效跟蹤和管理用戶評論意見,帶來了很大的難度。
文本分類(text categorization)應用分類函數或分類模型,把文本映射到多個類別中的某一類,使檢索或查詢的速度更快,準確率更高。文本分類在自然語言處理與理解、信息組織與管理、內容信息過濾等領域有著廣泛的應用。主要分類方法有:貝葉斯、決策樹、支持向量機(Support Vector Machines, SVM)、神經網絡、遺傳算法等。其中SVM通過分隔面模式擺脫了樣本分布、冗余特征以及過度擬合等因素的影響,具有很好的泛化學習能力[1]。但是SVM存在訓練收斂速度慢,分類精度難以提高等缺點。
核函數是SVM解決非線性問題的方法,受限于單個核函數性能,使得SVM泛化學習能力有限,分類精度難以提升。多核學習(Multiple Kernel Learning,MKL)利用對同質(homogeneous)或異質(heterogeneous)核函數優化整合,提高了SVM的學習能力和泛化性能。在處理大量異質數據時,MKL具有很好的靈活性,且分類結果更清晰,便于解決現實應用問題[2],但MKL涉及較多的相關參數的優化。對MKL研究目前主要集中在圖像識別領域[3,4]。本文通過校準算法確定MKL異質核函數的優化權系數和核參數,建立基于多核學習的支持向量機(Multiple Kernel Learning SVM, MKL-SVM)文本分類模型,提升SVM在評論分類中的應用效果。
1 MKL-SVM方法描述
1.1 SVM核函數
SVM是基于統計學理論中的結構風險最小化原理,具有高泛化性能的通用學習機。設分割面,樣本集線性可分時,SVM通過一個分割超平面,把訓練樣本點分類,使兩類訓練點到分割面的最小距離之和分類間隔(margin)最大[5]。分類間隔margin=2/||ω||,使間隔最大等價于使||ω||2最小。最優分類面的求解可以轉化為優化問題:
s.t.
利用Lagrange優化可將上述問題轉為其對偶問題:求解下列函數:
max:
s.t.和。
最優分類函數是
。
上述式中a:為Lagrange非負乘子
將低維的輸入空間數據通過非線性映射函數映射到高維屬性空間,輸入空間線性不可分問題在屬性空間將轉化為線性可分問題。這種非線性映射函數稱之為核函數[6]。設x在χ對應一個映射到高緯空間,φ(x)為核映射函數,K核函數為,,SVM尋找的超平面胃。此時目標函數變為:
而
考慮最大分割和訓練誤差,優化公式為:
s.t.
1.2 多核學習
設函數集合M由多個核函數K1…Km組成,核函數對應的映射函數是φ1…φM。MKL[7]公式:
s.t.
其中ωk表示φk在整個學習機中的權重。
其中00, k=1,2….M;多核學習核函數KMKL是Ki的凸線性組合:;最終的分類函數。
1.3 MKL-SVM及優化參數計算
MKL-SVM核函數的選擇取決于對數據處理的要求。具有全局性的核函數和局部性的核函數的分類性能互補,可以使用不同核函數組成多核核函數[8],但是如果MKL異質核函數種類過多,會使SVM訓練過于復雜。因此,本研究選用M=2,核函數選擇了:Gaussian徑向基核函數RBF (Radial Basis Function)。局部核函數具有較好的學習能力,而泛化推廣能力較弱。多項式核函數(Polynomial Function, PF)是一個全局性核函數,具有較好的泛化推廣能力,而學習能力則要弱些。Sigmoid核函數在神經網絡的應用中,具有良好的全局分類性能。對有下面2種實現形式:
MKL-SVM計算中核參數σ、d、β0、β需要尋找合適的值使得SVM測試錯誤率最小。權系數λ對MKL-SVM起著關鍵作用也需要進行尋優。核參數和權系數的確定是MKL-SVM非常重要的環節。本文利用核函數之間的關系等價于核矩陣之間的關系,結合交叉驗證技術LOO和核校準(kernel alignment)[9],建立如下優化求解步驟:
①,表示兩個核矩陣之間的內積。
核校準度量k1與k2在樣本集S上的差異。核校準是一個標量值,體現了不同核函數之間的差異關系。
② 對k1,k2使用LOO方法,求出核參數,使達到最大的核參數。
③ 定義函數
④ 構造一個權參數λ和乘子αi的拉格朗日方程,構造二次規劃子問題:
⑤ 重復步驟④直到誤差最小,算法收斂到最優的λ值。
2 實例分析
2.1 評估標準和分類維度
表1 購物評論分類維度
[[評論對象\&編號\&維度\&解釋\&售前服務\&A1\&購買咨詢\&是否提供在線問答解決顧客疑問\&A2\&信息提供全面性\&網站商品信息是否滿足顧客需求\&商品\&B1\&定價\&價格浮動給顧客帶來的影響\&B2\&商品特征\&對商品使用感受\&網站服務\&C1\&支付方式\&網站方便、種類多、安全\&C2\&內部配貨、調貨\&企業內部訂單處理速度\&C3\&信息溝通\&及時傳遞商品處理信息給顧客\&物流服務\&D1\&及時性\&物流時間是否合理\&D2\&態度\&快遞服務、送貨上門態度\&D3\&質量\&外包裝磨損、安全\&售后服務\&E1\&換、退貨\&問題商品的處理\&]]
對于需要分類的n個狀態,我們以ce表示對第i個狀態分類出的正確信息個數,te表示沒有分類出的正確信息個數,fe為錯誤信息個數。以精確度P(Precision)表示系統正確分類信息占所有分類信息的比例,;召回率R(Recall)表示系統分類出的正確信息占所有可能正確信息的比例,。評論模型性能需要同時考慮P和R,為此引入,其中β是P和R的相對權重,決定對P側重還是對R側重,通常設定為1。F值越大,說明分類性能越好。
圍繞購物網站服務流程,本研究結合顧客購物評論中的常見主題,總結出了評論的分類維度(表1)。
2.2 方法評估與應用
本文從卓越亞馬遜、當當網等購物網站,下載了不同商品的3000條購物評論。隨機抽取2000條作為訓練集,其余作為測試集,對比幾種方法F值。從圖1可以看出,單核SVM中Gaussian RBF優于Polynomial;而MKL-GP和MKL-GS分類性能都優于單核SVM。其中MKL-GP效果好于MKL-SG,這是由于Sigmoid函數在某些特定條件下,才滿足核函數對稱、半正定的要求,因此影響了其分類的性能。
圖1 不同方法分類F值
表2 數據集實驗結果
[[樣本量\&Polynomial
SVM (F值)\&Gaussian RBF
SVM(F值)\&MKL-GS
SVM(F值)\&MKL-GP
SVM(F值)\&300\&0.6573\&0.6639\&0.5081\&0.6047\&600\&0.6894\&0.7429\&0.7026\&0.7493\&1000\&0.7047\&0.7579\&0.8081\&0.8169\&2000\&0.7715\&0.8040\&0.8559\&0.8621\&3000\&0.7745\&0.8037\&0.8551\&0.8676\&]]
本文使用不同的樣本量對兩種算法進行對比,其中F值使用均值。從表2可以看出,在樣本量不夠大時,MKL-GS受Sigmoid函數特性影響性能較差;隨著樣本數量的增加,MKL優勢逐漸明顯,表現出優于單核SVM的分類性能;樣本量到2000之后,SVM分類性能的提升就不明顯,有待更進一步優化。
3 結束語
網絡購物評論分析需要多種技術的結合。MKL-SVM方法通過集成學習發揮異質核函數不同特性,實現了購物評論分類性能的提升。本文所做的工作僅僅是購物評論分析的第一步,還需要結合文本挖掘、情感分析、營銷分析等方法,才能幫助企業掌握消費者的感受,給予更多智能化的決策建議。網絡上存在各類評論、新聞、博客、微博,對這些文本的分類分析,只要通過優選核函數以及相關參數,可以參照MKL-SVM方法獲取更好的分類性能。
參考文獻:
[1] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展[J].軟件學報,2006.17(9):1848~1859
[2] F. R. Bach, G. R. G. Lanckriet, M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm[C]. Process 21st International Conference Machine Learn, 2004:6~14
[3] S. Sonnenburg, G. Ratsch, C. Schafer. Large scale multiple kernel learning [J]. Machine Learning Research, 2006.7(12):1531~1565
[4] Koji Tsuda, Gunnar Rätsch, et al. learning to predict the leave one out error of kernel based classifiers [J].Process International Conference Artificial Neural Networks.2001.21(3):331~338
[5] Smits, G.F., Jordaan, E.M. Improved SVM regression using mixtures of kernels Neural Networks[C]. Proceedings of the 2002 International Joint Conference,2002.5:2785~2790
[6] A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet, More efficiency in multiple-kernel learning[C]. Proc. 24th Int. Conf. Mach. Learn., Corvallis.2007.6:775~782
[7] Mingqing Hu, Yiqiang Chen, James Tin-Yau Kwok. Building Sparse Multiple-Kernel SVM Classifiers [J].IEEE TRANSACTIONS ON NEURAL NETWORKS. 2009.20(5):1~12
篇5
Apache Kafka:以著名的捷克作家命名的Apache Kafka用于構建實時數據流管道和流媒體應用程序。為什么這么受歡迎?因為它能夠以容錯的方式存儲,管理和處理數據流,并且十分快速。鑒于社交網絡環境處理數據流,Kafka目前非常受歡迎。
ApacheMahout:Mahout提供了一個用于機器學習和數據挖掘的預制算法庫,也是創建更多算法的環境。換句話說,是一個機器學習的天堂環境。
ApacheOozie:在任何編程環境中,需要一些工作流程系統來以預定義的方式和定義的依賴關系來安排和運行工作。Oozie提供的大數據工作以Apachepig,MapReduce和Hive等語言編寫。
Apache Drill,Apache Impala,Apache Spark SQL:所有這些都提供了快速和交互式的SQL,如與Apachehadoop數據的交互。如果你已經知道SQL,并處理以大數據格式(即HBase或HDFS)存儲的數據,這些功能將非常有用。
ApacheHive:知道SQL?然后采用Hive握手。Hive便于使用SQL讀取,寫入和管理駐留在分布式存儲中的大型數據集。
ApachePig:Pig是在大型分布式數據集上創建查詢執行例程的平臺。所使用的腳本語言叫做PigLatin。據說Pig很容易理解和學習。但問題是有多少人能從Pig學到什么?
Apach eSqoop:用于將數據從Hadoop移動到非Hadoop數據存儲(如數據倉庫和關系數據庫)的工具。
Apache Storm:一個免費的開源實時分布式計算系統。它使得使用Hadoop進行批處理的瞬時處理可以更容易地處理非結構化數據。
人工智能(AI):人們可能會問,為什么在這里會有人工智能?人工智能不是一個單獨的領域,所有這些趨勢技術都是如此相關,人工智能開發智能機器和軟件的方式,使得硬件和軟件的這種組合能夠感知環境,在需要時采取必要的措施,并繼續學習這些操作。
行為分析:有沒有想過谷歌如何為人們需要的產品/服務提供廣告?行為分析側重于理解消費者和應用程序所做的事情,以及如何以及為什么它們以某種方式起作用。它是關于了解人們的網上沖浪模式,社交媒體互動,電子商務行動(購物車等),并連接這些無關的數據點,并試圖預測結果。
Brontobytes:10的27次冪,這是數字宇宙的大小。在這里,可以了解TB字節,PB字節,EB字節,ZB字節,YB字節,以及Brontobyte。人們今后會更多地了解這些術語。
商業智能(BI):在這里引用調研機構Gartner對商業智能的定義。商業智能(BI)是一個總括的術語,其中包括應用程序,基礎設施和工具以及最佳實踐,可以訪問和分析信息,以改善和優化決策和績效。
生物特征:這就是JamesBondish技術與分析技術相結合,通過一個或多個物理特征識別人,如面部識別,虹膜識別,指紋識別等。
點擊流分析:用于分析用戶在網絡上瀏覽的在線點擊。曾經想過為什么某些Google廣告還會繼續關注你,即使切換網站等?因為知道你在點擊什么。
聚類分析:試圖識別數據中的結構的探索性分析。聚類分析也稱為分割分析或分類分析。更具體地說,它試圖確定同一組案例,即觀察者,參與者,回答者。如果分組不是先前已知的,則使用聚類分析來識別病例組。因為它是探索性的,它確定了依賴變量和獨立變量之間的區別。SPSS提供的不同的聚類分析方法可以處理二進制,名義,順序和比例(間隔或比率)數據。
比較分析:大數據的核心在分析中。顧名思義,比較分析是使用諸如模式分析,過濾和決策樹分析之類的統計技術來比較多個進程,數據集或其他對象。人們知道它的技術性很差,但不能完全避開這個術語。比較分析可用于醫療保健,比較大量的醫療記錄,文件,圖像等更有效和更準確的醫療診斷。
連接分析:你一定已經看到這些像蜘蛛網一樣的網絡圖表連接主題等,以識別某些主題的影響者。連接分析是有助于發現網絡中人員,產品和系統之間的這些相互關聯的連接和影響,甚至組合來自多個網絡的數據的分析。
數據分析師:數據分析師是一個非常重要和受歡迎的工作職位,除了準備報告之外,它還負責收集,操縱和分析數據。
數據清理:這有點不言自明,它涉及從數據庫中檢測和糾正或刪除不準確的數據或記錄。還記得“臟數據”嗎?那么,使用人工和自動化工具和算法的組合,數據分析人員可以糾正和豐富數據以提高其質量。記住,骯臟的數據會導致錯誤的分析和錯誤的決策。
DaaS:你有SaaS,PaaS和DaaS為代表的數據即服務嗎?通過向客戶提供按需訪問云托管數據,DaaS提供商可以幫助快速獲取高質量的數據。
數據虛擬化:這是數據管理的一種方法,允許應用程序檢索和操作數據,而不需要其存儲位置及其格式等的技術細節。例如,社交網絡將人們的照片存儲在他們的網絡中。
臟數據:現在,大數據變得很流行,人們開始在數據中添加形容詞,產生新的術語,如暗數據、臟數據、小數據,現在是智能數據。骯臟的數據就是不干凈的數據,換句話說,是不準確、重復的,以及不一致的數據。顯然,企業不希望與臟數據關聯。
模糊邏輯:人們對100%這樣的事物有多少把握?非常罕見。人類的大腦將數據聚合成部分真理,然后再抽象成某種閾值,來決定我們的反應。模糊邏輯是一種通過模仿部分真理來模仿人腦的運算,而不是像布爾代數的其余部分那樣的“0”和“1”這樣的絕對真理。模糊邏輯在自然語言處理中得到了廣泛的應用,并已發展成為其他與數據相關的學科。
游戲化:在一個典型的游戲中,有人們喜歡的得分要素,與他人競爭,某些游戲規則等元素。大數據中的游戲化是使用這些概念來收集數據或分析數據或通常激勵用戶。
圖形數據庫:圖形數據庫使用的概念,如節點和邊界代表人員/企業和他們的相互關系,從社交媒體挖掘數據。曾經想過,亞馬遜如何告訴你在購買產品時,別人買了什么?是的,圖形數據庫!
Hadoop用戶體驗(Hue):Hue是一個開放源代碼界面,使Apache Hadoop變得更加容易。它是一個基于Web的應用程序,并且具有用于HDFS的文件瀏覽器,MapReduce的作業設計器,用于制作協調器和工作流程的Oozie應用程序,Shell,Impala和HiveUI以及一組HadoopAPI。
HANA:高性能分析應用程序,來自SAP的軟件/硬件內存中平臺,專為大量數據交易和分析而設計。
HBase:一個分布式,面向列的數據庫。它使用HDFS作為其底層存儲,并支持使用MapReduce和事務交互的批量計算。
負載平衡:跨多臺計算機或服務器分布工作負載,以實現系統的最佳結果和利用率。
元數據:元數據是描述其他數據的數據。元數據總結了有關數據的基本信息,可以使查找和處理特定數據實例更容易。例如,作者,創建日期和日期修改以及文件大小是非常基本的文檔元數據。除文檔文件外,元數據也用于圖像,視頻,電子表格和網頁。
Mongo DB:一個跨平臺的開源數據庫,它使用面向文檔的數據模型,而不是傳統的基于關系數據庫的表結構。這種類型的數據庫結構旨在使結構化和非結構化數據在某些類型的應用程序中更加容易和快速地集成。
Mashup:幸運的是,這個術語對于我們在日常生活中了解mashup的定義類似。基本上,Mashup是將不同數據集合并為單個應用程序的一種方法(示例:將房地產清單與人口統計數據或地理數據相結合)。這是一個非常好的可視化。
多維數據庫:針對數據在線分析處理(OLAP)應用程序和數據倉庫進行優化的數據庫。它只不過是數據多個數據源的中央存儲庫。
多值數據庫:它們是一種直接了解三維數據的NoSQL和多維數據庫。它們直接用于直接操作HTML和XML字符串。
自然語言處理:為使計算機更精確地理解日常人類語言而設計的軟件算法,使人們能夠更自然、更有效地與之交互。
神經網絡:神經網絡是一個美麗的生物學啟發的編程范例,使計算機能夠從觀測數據中學習。有人稱編程范例很美,本質上,人工神經網絡是由現實生活中大腦的生物學啟發的模型。與這種神經網絡密切相關的是深度學習。深入學習則是一套功能強大的神經網絡學習技術。
模式識別:當一個算法在大數據集或不同的數據集中定位遞歸或規律時,就會出現模式識別。它緊密相連,甚至被認為是機器學習和數據挖掘的代名詞。這種可見性可以幫助研究人員發現見解或得出結論,否則會被掩蓋。
RFID-射頻識別:一種使用無線非接觸式射頻電磁場傳輸數據的傳感器。隨著物聯網革命,RFID標簽可以嵌入到每一個可能的“東西”中,以產生需要分析的巨大數據量。
SaaS:軟件即服務,使供應商能夠托管應用程序并通過互聯網使其可用。SaaS提供商通過云計算提供服務。
半結構化數據:半結構化數據是指以常規方式未被捕獲或格式化的數據,例如與傳統數據庫字段或公共數據模型相關聯的數據。它也不是原始的或完全非結構化的,并且可能包含一些數據表,標簽或其他結構元素。圖形和表格,XML文檔和電子郵件是半結構化數據的示例,它在萬維網上是非常普遍的,通常在面向對象的數據庫中。
情緒分析:情緒分析涉及捕捉和跟蹤消費者在各種交互或文件(包括社交媒體,客戶服務代表呼叫,調查等)中表達的意見,情緒或感受。文本分析和自然語言處理是情緒分析過程中的典型活動。目標是確定或評估對公司,產品,服務,人員或事件表達的情緒或態度。
空間分析:指分析地理數據或拓撲數據的空間數據,以識別和理解分布在地理空間中的數據內的模式和規律。
流處理:流處理旨在通過“連續”查詢對實時和流數據進行操作。隨著從社交網絡不斷流出的數據,流處理和流分析的確需要在這些流中不間斷地計算數學或統計分析,以便實時處理大量的數據。
智能數據:智能數據據稱是在通過算法進行的一些過濾之后,其數據是有用的和可操作的。
TB字節:一個相對較大的數字數據單元,一T字節(TB)等于1000GB字節。據估計,10T字節可以容納美國國會圖書館的全部印刷品,而1T字節可以容納1000份百科全書。
可視化:通過正確的可視化,原始數據可以投入使用。當然可視化并不意味著普通的圖形或餅圖。它們是指可以包含許多數據變量的復雜圖形,同時仍然可以理解和可讀
篇6
[關鍵詞]文本挖掘 文本挖掘工具 開源文本挖掘工具
[分類號]TP391
1、文本挖掘工具概述
文本挖掘隸屬于數據挖掘這一交叉學科的一個具體研究領域,它的主要任務是從海量文本中發現潛在規律和趨勢。文本類數據源由新聞文章、研究論文、書籍、期刊、報告、會議文獻、技術檔案、技術標準、產品樣本、專利說明書、Web頁面等半結構化或者高度非結構化的數據構成,含有較多機器所難于理解的自然語言,這使得文本挖掘工具與傳統的以結構化數據為對象的數據挖掘工具有很大不同。
1.1 商業文本挖掘工具
近年來,國內外文本挖掘技術發展較快,許多技術已經進入商業化階段。各大數據挖掘工具的提供商也都推出了自己的文本挖掘工具。這些工具除具備常規的文本挖掘功能(如數據預處理、分類、聚類和關聯規則等)外,針對龐大的、非結構化數據都能做出較好的應對,支持多種文檔格式,文本解析能力強大,大部分支持通用數據訪問,但是價格都十分昂貴。由于每個提供商的專注領域或企業背景不同,工具的定位和適用性也有所不同。本文以目前市面上較為主流的10款商業文本挖掘工具為對象,針對其不同點進行了簡要的分析比較,見表1。
1.2 開源文本挖掘工具
目前開源文本挖掘較多,但大部分工具由于其固定的算法只適用于特定的場景,應用范圍較窄,與其相關的文獻資料極少,故不納入本文的比較范圍。本文對10款較具普適性的主流開源工具進行了比較,見表2。
1.3 小結
大部分商業文本挖掘工具都對多語言、多格式的數據提供了良好的支持,且數據的前期處理功能都比較完善,支持結構化、半結構化和完全非結構化數據的分析處理。開源文本挖掘工具一般會有自己固有的格式要求,國外開源文本挖掘工具對中文的支持欠佳,而且大部分開源工具仍然停留在只支持結構化和半結構化數據的階段。
商業文本挖掘工具的分類、回歸、聚類和關聯規則算法普遍都較開源文本挖掘工具齊全,包含了目前主流的算法,只是每個工具在算法的具體實現上存在差異。同時,前者在處理龐大的數據量時依舊能夠保持較高的速度和精度,后者則顯得有些望塵莫及。
目前文本挖掘還處于探索發展的階段,其中商業文本挖掘工具的發展要快于開源文本挖掘工具。不過,任何事物都有其兩面性,大部分商業軟件由于其高質量和稀缺性而非常昂貴,不適合小企業和科研機構。優秀的開源文本挖掘工具則能在最大程度上滿足相關需求,并且還能夠支持加載使用者自己擴充的算法,或者直接嵌入到使用者自己的程序當中去。
2、典型的開源文本挖掘工具比較
筆者選取了四款具有代表性的開源文本挖掘工具,在數據格式、功能模塊和用戶體驗三個方面進行詳細分析。其中Weka以算法全面得到了許多數據挖掘工作人員的青睞,LingPipe是專門針對自然語言處理開發的工具包,LIBSVM是SVM模式識別與回歸的工具包,ROST CM在各大高校應用面非常廣,對中文的支持最好。具體比較情況如下:
2.1 數據格式
開源工具通常做不到像商業工具那樣對各種格式的數據都提供良好的支持,而會有一定的格式限制,甚至要求自身專有的數據格式。在選擇工具時,應該首先考慮數據是否符合或者經轉換后能夠符合工具的要求。同時,如果對工具分析的結果還要進行后續處理,也應該事先考慮到所使用的工具的輸出格式是否常見或者能否轉換為常見的格式,以支持后期的工作。四款開源文本挖掘工具的格式要求以及輸出格式如表3所示:
可見,四款開源工具都有自己固定的格式要求,需要針對采集到的數據做格式化處理。雖然Weka支持常見的CSV格式,但是在進行后期分析時ARFF格式的文檔效果更好,一般會使用其自帶工具將CSV轉換為ARFF。Weka不支持txl格式的文檔,需要使用者用另外的工具或者自己編寫代碼實現格式轉換。LIBSVM使用數據格式為:::…,相關幫助文檔里提供了格式轉換函數write41ibsvm()。Lingpipe和Rost CM都支持Text文檔。
LIBSVM的數據輸出格式需要專用的工具才能打開查看,難以集成到其他應用。其他三個開源工具的數據輸出格式更易于擴展使用。
2.2 功能模塊
功能模塊是工具開發時的重中之重,但功能最全的并非就是最好的,因為全面經常會導致淺顯,而不夠深入、不夠專業的分析結果是使用人員所不愿見到的。應該根據實際情況,針對性地選擇最合適的工具來完成分析工作,這樣可達到事半功倍的效果。因此,工具的功能模塊是否符合自己的要求,通常直接左右著使用者的挑選意愿。筆者對四款開源的文本挖掘工具從文本預處理操作步驟、文本分類和回歸、文本聚類和關聯規則的各種常見算法以及能否訪問數據庫、模型評估和二次開發接口等方面進行了較為詳細的比較。
文本預處理是文本挖掘過程中至關重要的一步,它商接影響到分類、聚類、關聯規則等后期工作的效果。其中文本分詞、去停用詞、詞頻分析、文本特征提取是較為常規的操作,也是文本預處理最核心的內容。
文本分類是在經過預處理的數據上,選擇分類器進行訓練、評價和反饋結果的過程。本文中,筆者僅針對分類器進行比較。常見的分類算法有TF-IDF分類、Naive Bayes分類、Knn分類、決策樹分類、神經網絡分類和支持向量分類機(SVM)。分類器不存在優劣,每一組數據都有其適合的分類器,所以在訓練分類模型時,需要嘗試不同的分類器和不同的參數,以實現模型優化。
篇7
【關鍵詞】 IP化網絡文本 文本分類 文本聚類 組織框架
一、引言
隨著移動運營商網絡IP化改造日益深入,運營商內部積累了大量跟IP化網絡相關的文本,而如果移動IP化網絡文本無法快速、準確地進行分類,將會直接造成網絡維護工作無章可循,進而影響到網絡的安全性。現有處理移動IP化網絡文本的方法一般是采用人工分類歸檔的方式,這種手工的方法有很多不盡如人意的地方,因此,迫切需要人們研究出相關工具以對大規模的文本信息進行有效的過濾并進行自動分類組織。
本文在基于文本分類[1] [3]、聚類算法的基礎上實現了一種建立移動IP化網絡文本組織框架的方法,提出了一套完備且可完善的文本組織框架:采用人工聚類與機器聚類相結合的方式得到了一套科學合理的文本組織方法;采用重復分類訓練學習過程及定期重復框架聚類過程的方式實現了該套文本組織框架的動態完善;將移動IP化網絡文本進行系統化管理,網管人員可隨時根據需要從文本庫中搜索和查詢所需要的文本,獲取相關知識。對文本分類聚類模型進行測試,結果顯示,多聚類算法得出的第二文本框架與專家分類框架具有很大區分特征[8-11],文本分類的正確率達到了70%以上,基于內容的索引搜索效率很高,提高了文本管理人員查找文本的效率。系統的部署與應用,改變了中國移動在開展IP化過程中缺乏智能化分析系統的現狀,提高了網絡維護的針對性、主動性和前瞻性。
二、文本分類聚類技術模型設計
2.1 現有文本處理方式存在的問題
現有處理移動IP化網絡文本的方法一般是采用人工分類歸檔的方式,網管人員通過查看一定數量的移動IP化網絡文本的全部內容、摘要或關鍵字根據個人的工作經驗、理解預先建立移動IP化網絡文本組織框架,然后根據建立的移動IP化網絡文本組織框架以及新的移動IP化網絡文本中包含的相關內容,對該新文本進行手工分類歸檔,并通過不定期的檢查和整理的方式維護分類歸檔的移動IP化網絡文本。當需要查詢IP化網絡相關文本時,輸入相關搜索特征詞,系統從移動IP化網絡文本組織框架的相應分類中查詢特征詞對應的文本,并輸出給查詢人員。
有上述可見,現有移動IP化網絡文本(以下簡稱為文本)處理方式存在以下缺點:(1)文本組織框架缺乏科學性及一致性。現有的文本處理方式屬于粗放式的文檔管理方式,文本組織框架以及文檔的整理分類完全取決于網管人員的專業知識水平、業務能力及工作態度,分類的方式受個人主觀因素影響較大,不同的人有不同的看法,在這樣的方式下,很難保證各個網管人員構建的文本組織框架采用統一客觀的分類標準,缺乏科學合理性。(2)效率較低,準確率不能保證。人工歸檔的方式需要消耗較多的時間,尤其在文本數量較大的情況下,不能實現較高的處理效率;并且這種人工歸檔的分類方式還會受到一些個人因素的影響,如專業知識水平、人為判斷的失誤等的影響,使得分類準確率不高[2]。(3)不利于網管人員的檢索、利用現有文本知識。采用現有的處理方式處理移動IP化網絡文本,即網管人員按照自身已經建立的文本組織框架以及閱讀文本后的理解來對文本分類,使得不同專業人員的分類方式存在偏差。由于未能采用統一客觀的分類標準,從而使得相應的網管人員對該文本的搜索、查詢與利用變得十分困難,致使文本知識的利用率低下,而且,檢索得到的文本出現重復,也增加了檢索所需的時間,浪費了系統資源。
2.2 文本分類聚類模型的設計思路
該模型的主要理論基礎是文件聚類和文本分類算法,前者的基礎是先把文本進行分詞[4]和向量化表示[5] [6],即預處理過程,之后根據一定的聚類算法把具有相似性質的文本歸為一類,以此為基礎可形成文本組織框架;分類的過程則是在已有文本框架的基礎上進行數據的訓練過程,形成一定的分類器模型,當有新文本進來時可以自動根據文本內容進行文本分類。具體過程如圖1所示。
為了改變目前IP化網絡文本管理過程中的不足,本文在對文本挖掘進行較為廣泛的探索與研究的基礎上,結合人工分類及基于統計方法的文本聚類與文本分類方法,設計了一種面向IP化網絡文本挖掘算法模型。該模型充分利用了IP化網絡中專業術語較多的特點,通過總結歸納這些術語,形成分詞庫,抽取文本的特征詞[8-11],計算文本特征向量[8-11],實現文本聚類及文本分類算法的應用。
2.3 文本分類聚類模型
對文本數據的建模和處理思路如圖2所示。
(1)模型數據源
IP承載網建設與維護相關OA文、維護管理辦法、建設文檔等。核心網VOIP改造相關OA文、維護管理辦法、建設文檔等。
(2)模型大致流程
首先為保證所形成的文本組織框架的質量,需要選擇精度高、適應性強的聚類算法作為聚類工具,在流程的開始階段需要進行小樣本的數據實驗,對K-means[7]、模糊C、蟻群以及層次聚類算法所形成的文本框架進行比較,并結合人工分類框架進行評估,最后選出蟻群算法這種最適合IP化網絡安全文本的聚類算法作為后續流程的主要聚類算法。
在選出最優的聚類算法之后開始使用該算法對全部的文本集進行聚類,形成初步的文本組織框架;該框架作為分類的先驗知識進行分類的訓練形成分類器,訓練方法有很多,本文采用了支撐向量機(SVM [6])和KNN[7]兩種方法進行訓練,通過比較發現前者較優。
分類器形成之后,當有新的文本進來時,分類器會自動根據文本內容對其進行分類,并將文本歸入相應的文件夾下。每周一段時間可以結合專家知識對誤判率進行計算和評估,如果誤判率高于臨界值,就說明原來的文本框架已經不再適用于新的文本集,需要對現有的全部文本集進行重新聚類形成新的文本分類框架,這樣就實現了文本組織框架的更新和完善過程。基于所形成的文本框架,網絡安全維護人員可以進行方便快捷的檢索和學習。
(3)模型預期效果
①可優選一種與人工分類結果較為接近的文本聚類算法,可實現大數據量文本的準確聚類;②可對新增文本進行較為準確的分類,減輕網管人員進行文本管理的壓力;③可實現對文本的多為搜索,幫忙網管人員更為精確地找到所需要的文本。
三、文本分類聚類技術模型的實現
3.1 文本分類聚類技術模型實現概述
所述的數據輸入模塊用于采集IP化網絡安全文本數據;所述的數據分析模型用于接收數據輸入模塊傳遞來的數據,并且對接收到的數據進行挖掘分析,形成四個數據分析子模塊;所述的分析結果輸出模塊用于把數據分析模塊分析的結果結合輸出要求呈現給輸出端;在模型中,所述的移動IP化網絡文本數據包括設備指標文本、IP承載網文本、交換設備文本、全網業務文本及安全管理與網管支撐文本;所述的數據分析模塊中的四個數據分析子模塊分別是:專家處理子模塊、多聚類算法子模塊、文本分類及文本框架完善子模塊和文本組織框架合成模塊。具體如圖3所示。
本文同時提供上述文本數據分析模型的實現方法,具體步驟如圖4所示。
下面結合實例給予說明:
1.數據輸入步驟:通過數據輸入模塊導入IP化網絡文本數據,IP化網絡文本數據包括集團公司、省公司、地市公司的很多發文、管理辦法和不同地方網絡維護案例文本及不同部門交流文本數據。
2. 數據分析步驟:
A.專家處理子模塊步驟:本文的方法以IP化網絡文本數據為基礎,先通過專家處理子模塊讓專家對現有小樣本的文本數據進行整理,得出IP化網絡文本數據的分類框架。比如框架第一層氛圍分為指標類材料、IP承載網類材料、交換設備類材料、全網業務材料、安全管理與網管支撐材料五大類,每一大類都又分為不同子類。如表1所示。
B.多聚類算法處理子模塊:通過聚類算法子模塊采用不同的聚類算法對小樣本的IP化網絡文本數據進行分析,得出不同的分類結果;比如通過k-means聚類算法、模糊c均值聚類算法、蟻群聚類算法、層次聚類算法等不同聚類方法進行聚類計算,并輸出聚類結果。通過對小數據樣本聚類得出的結果作為評價來選出適合IP化網絡文本的聚類算法,當遇到大的數據樣本時,應用已經選出的聚類算法進行挖掘。比如小樣本中蟻群聚類算法結果最為貼近專家分類結果,后面的聚類方法就都采用蟻群聚類算法來進行挖掘。
C.文本組織框架合成模塊:把聚類算法子模塊輸出的分類結果和專家分類結果比對,采用專家分類結果作為文本數據分類的框架,將小樣本的專家分類結果作為指導,將和專家分類結果最相近的聚類算法的聚類結果填入專家分類結果中,實現全部文本數據的合理分類。
D.文本分類及文本框架完善子模塊:新的文本進來,文本分類及文本框架完善模塊會依據現有合理的文本組織通過文本分類算法對新進入的文本進行分類,專家判斷錯誤率到達了多少,如果錯誤率高于閾值,就會記錄為誤判,把所有的數據用在階段最優的算法重新進行聚類計算,然后通過文本組織框架合成模塊合成新的文本組織框架;具體的邏輯框架圖如圖5所示。
3.分析結果輸出步驟:在數據分析結果輸出模塊,用戶可以根據自己的需求通過樹形框架結構找到自己想要的文本,也可以通過關鍵詞搜索,得到最相關的搜索結果。大大提高對公司現有文本資源的利用效率。
3.2 文本分類聚類技術模型的具體實現
本模型是一種建立移動IP化網絡文本組織框架的方法。該方法根據預先設定的樣本量建立第一文本組織框架,應用多聚類算法對所述預先設定的樣本量進行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法建立的第二文本組織框架,根據所述第一文本組織框架和所述第二文本組織框架建立文本組織框架。本模型在實現過程中具體流程如圖6所示。
步驟1:根據預先設定的樣本量建立第一文本組織框架。本步驟中,預先設定的樣本量為一定數量的IP化網絡文本,本實驗中,預先設定的樣本量為小樣本量,IP化網絡領域內的專業技術人員根據已有的專業技術框架、自身的工作過程中積累的經驗及對文本的理解來實現IP化網絡文本組織框架的制定,比如,根據各文本的文本特征向量[8-11],建立五大類的IP化網絡文本組織框架,即文本組織框架包括:指標類材料、IP承載網類材料、交換設備類材料、全網業務材料及安全管理與網管支撐材料,并計算每類對應的分類文本特征向量[8-11]。當然,實際應用中,也可以根據實際的需要,按照文本特征向量[8-11]構造其他類型的IP化網絡文本組織框架,比如,將IP化網絡文本按照集團公司、省公司、地市公司的發文、管理辦法、不同地方網絡維護案例文本及不同部門交流文本數據進行劃分,構造相應類別的IP化網絡文本組織框架。
在模型實現過程中,對于IP化網絡文本組織框架下的每個大類,又可以分為不同的子類并設置每個子類對應的子分類文本特征向量[8-11],比如,將IP化承載網類材料分為五大子類,分別為:設備建設方案、日常維護管理辦法、安全評估與巡檢、省際IP承載網相關文件、網絡改造與調整;交換設備類材料分為工程建設方案及管理辦法、專項提升活動等子類;全網業務材料分為網絡運行維護實施、應急處理與重大故障等子類;安全管理與網管支撐材料分為賬號與口令安全管理辦法、其他安全管理辦法及文件等子類。請參見表2所示的IP化網絡文本組織框架示例。
本步驟中,由于專業技術人員具有良好的專業技術水平及豐富的經驗,對文本的理解較為全面、準確,使得對文本進行分類的準確性高,描述各個分類的文本特征向量[8-11]恰當、準確性高。從而使得建立的文本組織框架科學性強、可信度高,可作為優選聚類算法的主要依據;同時,由于預先設定的樣本數量不會太多,分類、歸檔所需的時間較少,屬于在人工可處理的范圍內。
步驟2:應用多聚類算法對預先設定的樣本量進行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法作為優選聚類算法。
該優選聚類算法將在第一文本組織框架已無法進行準確分類的情況下,啟動計算,得出第二文本組織框架,用于文本分類。
本步驟中,多聚類算法(文本挖掘算法)包括:k-means[7]聚類算法(k-means Clustering Algorithm)、模糊c均值聚類算法(Fuzzy C-means Clustering Algorithm)、蟻群聚類算法(Ant Colony Optimization Algorithm)、層次聚類算法(Hierarchical Clustering Algorithm)等。各算法及對文本的聚類流程屬于現有技術,其詳細描述請參見相關技術文獻,在此不再累贅。
實際應用中,由于不同的聚類算法對相同數量的樣本進行聚類時,其聚類結果可能存在較大的差別,且各聚類算法的聚類結果真實可靠性也無從評估,因而,采用不同的聚類算法將對聚類結果產生實質性的影響。本示例中,通過選用不同的聚類算法對預先設定的相同數量的樣本進行聚類,對聚類結果(文本組織框架)與第一步中建立的IP化網絡文本組織框架進行比較,選取與人工分類結果的相近程度最好的聚類算法結果對應的聚類算法,作為優選聚類算法。
步驟3:以第一為文本組織框架作為文本分類依據。本步驟中,在得到第一文本組織框架及優選的聚類算法的基礎。
步驟4:根據所述文本組織框架,對新文本進行分類。本步驟中,導入IP化網絡文本數據后,按照每個樣本包含的內容,抽取文本中的關鍵詞,構造各文本的文本特征向量[8-11],以文本組織框架為依據,將新文本的文本特征值與文本組織框架中各類包含的文本特征值進行匹配,將該新文本分類至文本組織框架中相應的類別中。
被分類的樣本經過預處理,抽取文本中的特征詞[8-11],獲取各文本的文本特征向量,與文本組織框架中各子類包含的文本特征向量進行匹配,將各文本分類到文本組織框架中相應的子類;于此同時,抽取新增的部分文本進行人工分類,比較人工分類與自動分類的誤差,當誤差超過閾值時,啟動已選出的優選聚類算法建立的第二文本組織將文本分類,比如,上述示例第二步中,假設蟻群聚類算法對預先設定的樣本的算法結果(第二文本組織框架)最為貼近建立的第一文本框架。當誤差超過閾值時,重新啟動蟻群聚類算法計算第二文本組織框架。
本模型實現過程中,還可以利用文本分類結果,對所建立的文本組織框架進行調整,參見步驟5。
步驟5:從新的文本中,選取一定數量的文本,根據第一文本組織框架進行人工分類;本步驟中,選取的這一定數量的文本,在步驟4中已進行了自動分類,將自動分類結果與人工分類結果進行比較。
步驟6:將自動分類結果與人工分類結果進行比較,如果自動分類結果誤差大于預先設定的閾值,啟動優選聚類算法,計算新文本組織框架,作為第二文本組織框架,代替第一文本組織框架。本步驟中,預先設定的閾值可以是自動分類結果與人工分類結果中包含的相異的文本個數與人工分類結果包含的文本個數之比。如果沒有超出該閾值,表明當前建立的文本組織框架運行良好,可靠性高;如果超出該閾值,需要按照人工分類結果調整文本組織框架中各大類相應子類對應的文本特征向量[8-11],或者重新應用前述優選的聚類算法對所有文本(新舊文本)進行聚類,得到新的文本組織框架,用該新的文本組織框架代替原有的文本組織框架,當自動分類結果誤差大于預先設定的閾值時,重新啟動優選的聚類算法進行聚類得到新的文本組織框架。
實際應用中,上述對所建立的文本組織框架進行調整,主要是在利用第一文本組織框架對新文本分類時,由于建立的第一文本組織框架是基于有限的樣本量,因而,在大樣本量的情況下,可能存在一定的分類誤差,而且隨著樣本量的不斷增大,其誤差可能也越來越大,因而,通過人工評估,當誤差超出預先設定的閾值時,可以用前述的優選文本聚類算法結合人工評估結果重新生成文本組織框架,以替換該第一文本組織框架。
當然,在建立文本組織框架后,網管人員就可以利用該文本組織框架進行搜索和查詢,獲取所需的文本,例如,網管人員可以輸入搜索特征詞,文本組織框架查詢關鍵詞對應的文本特征值[8-11],將該文本特征值所屬的搜索結果(文本概述等信息以及文本所屬的大類及子類)輸出給網管人員,這樣,與傳統的關鍵詞的搜索方式不同,由于可根據文本特征值進行搜索,搜索情況更接近文本的內容,每個文本可供搜索的內容更多,使用文本搜索更貼近文本內容。
四、測試與分析
通過模塊層次圖和數據流圖的進一步設計,基于VC編程環境,本研究將設計的模型進一步在機器上實現,開發出IP化文本分類組織框架和基于文本內容的搜索。測試結果表明多聚類算法得出的第二文本組織框架與專家分類框架具有很大區分特征[8-11],文本分類的正確率達到了70%以上,基于內容的索引搜索效率很高,提高了文本管理人員查找文本的效率。
4.1 測試系統
對于中國運營商來說,3G的日益臨近,網絡IP化成為一種不可逆轉的趨勢。通過對現有網絡進行IP化的改造來實現多網融合最終完成3G網絡的建設已經成為國內外各大運營商的共識,IP化網絡在核心網的比重越來越大。目前,對計算機IP網絡的評估已經有一些研究成果及應用系統。但是,針對運營商中IP化網絡具體特點,建立科學、可行的安全評估模型但成了擺在中國運營商面前的一個重要的問題,同時也是在地市公司在從事具體維護工作中不得不去思考的一個問題。
目前,對于IP網絡的評估方法一般需要一些先驗知識,如威脅出現的概率、無形資產賦值等,而準備獲得這些數據是存在困難的,為此,已有的模糊、神經網絡等方法建立的安全估計模型只能對于局部系統進行評價,且多局限的理論的說明,未能有一些全面的,可行的安全評估模型及可投入使用的評估系統的產生。因此,本產品希望從移動運營商IP化網絡的運營實際出發,從技術、管理、安全意識等更加宏觀的層面來審視安全評估問題,并依托省網管已經建立的“網絡運營支撐平臺”,建立基于粗糙集的IP化網絡安全評估系統。
對于地市公司公司來說,隨著公司網絡集中化建設的進行,地市公司對IP網絡的維護權限多停留在設備的維護方面,維護行為也多以被動實施為主,往往缺乏對自身網絡安全性的科學及客觀的把握。為此,該系統所采用的模型也從地市公司IP化網絡的具體建設及維護實踐出發,采用粗糙集的理論來建立網絡的安全模型、采用粗糙集理論來分析網絡各項安全因素的輕重關系,輸出決策規則,建立IP網絡下客戶感知及網絡質量的共同提升模型,從而建立起一套科學完善的IP網絡評估算法,從而為地市公司從事IP化網絡的建設和維護提供指導,變被動為主動,全面提升IP化網絡建設與維護的有效性。
本文設計的文本挖掘模塊作為該系統中重要的一個組成部分,對于IP化安全文的深入挖掘,實現IP化網絡的安全保障起著重要的作用。對于粗糙集實現網絡安全評估方面因為不是論文的主要內容。因此不作主要描述。本文重點描述了一種面向IP化網絡文本挖掘模型在系統中的具體實現。
文本模塊從文本導入、文本框架導入、聚類方法選擇、文本聚類、文本分類、文本搜索和瀏覽等方面把模型中的主要功能分別在不同模塊中實施。其中聚類方法選擇模塊中集成了K-means聚類算法、模糊C聚類算法、分層聚類算法和蟻群聚類算法,是模塊中的核心部分。系統的模塊層次如圖7所示。
在系統的模型層次圖的基礎上,進一步設計研究了系統的數據流圖,從數據輸入層、數據預處理層、核心算法層、用戶使用層等層面圍繞文本組織框架為核心全面鋪開。找出系統輸入、處理、輸出過程中的關鍵數據存儲和邏輯處理,理清了內部邏輯的相互關系。系統的數據流圖如圖8所示。
4.2 系統相關模塊的功能說明
在系統實現過程中,主要實現了如下幾個模塊:IP化網絡安全文本數據導入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模塊,各模型具體功能如下:(1) IP化網絡安全文本數據導入模塊:用于導入IP化網絡安全文本數據,分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2) 第一文本組織框架處理模塊:用于對接收的文本進行分類整理,建立第一移動IP化網絡文本組織框架,并將建立的第一移動IP化網絡文本組織框架信息分別輸出至聚類結果匹配模塊及文本組織框架生成模塊;(3)多聚類算法模塊:用于根據預先設置的多聚類算法對接收的文本進行聚類,向聚類結果匹配模塊輸出聚類結果;(4) 聚類結果匹配模塊:用于根據接收的第一移動IP化網絡文本組織框架信息匹配來自多聚類算法模塊的聚類結果,將與第一文本組織框架最為相似的聚類算法的聚類結果信息輸出至文本組織框架生成模塊;(5) 文本組織框架生成模塊:用于根據接收的第一移動IP化網絡文本組織框架信息以及聚類結果信息建立文本組織框架。
IP化網絡安全文本數據導入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模塊等5模塊具體邏輯關系如圖9所示。
在實現過程中,該模塊可以進一步包括如下可擴展模塊:(1)文本分類模塊,用于依據文本組織框架生成模塊中存儲的文本組織框架信息,對來自IP化網絡文本數據導入模塊的文本進行自動分類。(2)文本組織框架調整模塊,用于接收來自文本分類模塊的自動分類結果、以及來自第一文本組織框架處理模塊對同批量文本的人工分類結果并進行比較,如果自動分類結果誤差大于預先設定的閾值,按照人工分類結果調整文本組織框架生成模塊存儲的文本組織框架信息。(3)搜索和查詢模塊,用于接收來自外部的搜索關鍵詞,發送至文本組織框架生成模塊,將文本組織框架生成模塊根據存儲的文本組織框架信息查詢得到的關鍵詞對應的文本信息進行輸出。
系統中各模塊相互協同共同完成模型所要求的功能,流程如下:(1)IP化網絡文本數據導入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模塊,其中,IP化網絡文本數據導入模塊,用于導入IP化網絡文本數據,分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2)第一文本組織框架處理模塊,主要有領域專家來完成,領域專家通過人工的方式來獲取接收的文本信息中包含的關鍵詞,根據關鍵詞構造各文本的文本特征向量[8-11],利用文本特征向量對所述預先設定的樣本量的IP化網絡文本進行分類整理,建立第一IP化網絡文本組織框架,并將建立的第一IP化網絡文本組織框架信息分別輸出至聚類結果匹配模塊及文本組織框架生成模塊;(3)多聚類算法處理模塊,用于根據預先設置的多聚類算法對接收的文本進行聚類,向聚類結果匹配模塊輸出聚類結果;聚類結果匹配模塊,用于根據接收的第一IP化網絡文本組織框架信息匹配來自多聚類算法模塊的聚類結果,將與第一文本組織框架最為相似的聚類算法的聚類結果信息輸出至文本組織框架生成模塊;(4)文本組織框架生成模塊,用于根據接收的第一IP化網絡文本組織框架信息以及聚類結果信息建立文本組織框架。
4.3 系統相關模塊的功能說明
通過移動公司的IP化網絡文本測試了本研究設計的功能模塊,測試結果顯示文本框架與專家分類框架具有很大區分特征,文本分類的正確率達到70%以上,基于內容的索引搜索效率很高,提高了文本管理人員查找文本的效率。
4.3.1 文本聚類測試結果分析
該部分通過文本聚類實現文本框架的形成。系統提供四種聚類方法的實現:K-means[7]、模糊C聚類、層次聚類、蟻群聚類算法;每種聚類之后,都將在下方的顯示框中展示聚類的結果,也即文本組織框架。之后通過比較不同聚類的聚類結果,選出最優的聚類算法。
K-means[7]聚類算法可以調整三個參數:聚類數目、最大迭代次數、文檔向量維數。現有文本專家聚類分為3類:IP承載網、全網業務、安全管理與網管支撐。
模糊C均值聚類算法可以調整五個參數:聚類數目、誤差限、參數m、最大迭代次數、文檔向量維數。其中參數m的調整范圍為1.5~2.5。如圖10所示。
其中K-means[7]聚類算法將文本通過迭代1000次,采用100個特征詞提取出文檔向量,分出第一類的文本數量為67,第二類的文本數量為2,第三類文本數量為1。如圖11所示。
4.3.2 文本分類測試結果分析
該部分暫時無需選擇路徑,僅采用樣本數據實現,因為專家分類文檔沒有經過聚類算法,提取不出特征值,無法作為分類;此環節耗時較長,可能需2-3分鐘,各機器性能不一可能略有差別。
本部分工作的基礎是使用上一步驟選取最優的聚類算法對所有文本進行聚類形成合理的文本組織框架并訓練形成分類器。分類器形成后,就可以對新進入的文本進行分類,一般分類正確率在70%以上。
圖12展示了對實驗數據進行分類的結果,對34個文本進行分類,分類正確率達到80%。證明該文本框架所形成的分類器具有較好的分類能力。圖中標紅的文本本分到了錯誤的類別中了,其余是被正確分類的文本;分完后可以查看通過上面的選擇查看單個文本分類情況,如圖13。
4.3.3 文本搜索測試結果分析
本部分是基于前述文本組織框架的文本搜索模塊,目前系統可供使用的檢索詞包括發文單位(集團、省公司、使公司)、文本類別(通知、申請、報告、自查報告、緊急通知等)、文件名(輸入要找的關鍵詞,系統將使用該關鍵詞在所有文本的文件名中進行檢索)、發文時間等。系統正在實現的功能是基于特征詞的檢索,在文本分詞階段每一個文本都被分成若干特征詞所表示的向量,輸入特征詞就可以實現基于內容的檢索,大大提高了檢索的效率和準確度。
其中基于內容的特征詞的搜索是一個創新,通過文本訓練,提取出所有搜索范圍內的文本的特征詞,通過特征詞的頻率來確定不同文本的區別,如100維特征詞的訓練結果就將不同文本通過挑選出來的100個文本特征詞的頻率來表示,實現文本的向量化,如果某一特征詞在文本中沒有出現,則向量這個點上的取值為0。訓練后的文本集就形成了一張二維表,一個維度是文本,一個維度是特征詞,這個二維表是基于文本內容訓練出來的,通過此二維表的特征詞來搜索文本比其他幾個維度效率更好,效果更好。
如圖14所示,搜索范圍選擇IP化安全管理系統文件夾中的clusters文件夾(因為要基于特征詞搜索需要有能提供特征詞的文件夾)。
查詢得到的文本可直接在檢索結果欄中打開閱讀。如圖15所示。
篇8
關鍵詞:越南語;語料庫;分詞軟件
中圖分類號:TP391.1
包括越南國家本身,世界上約有九千萬人講越南語;按世界母語使用人數排行,越南語列第十六位,顯然,越南語已經不是真正意義上的小語種,而是一門重要的語言。盡管越南語的語系歸屬尚未確定,有語言學者認為越南語是一種孤立語言;較多的學者則認為越南語屬于南亞語系的孟-高棉語族,但無容置疑的是越南語與印歐語言密切相關。在書寫形式上,現代越南語采用的是擴展的拉丁符號;在組成上,越南語單音節詞居多;在形態上,語法意義是通過語法詞等詞來實現。以上特點使得越南語與西方語言與東方語言既有相似之處,又有區別。實際上,一般認為,在越南語中,詞匯是由"ti?ng"(字)構成。目前,越南語共有字八千左右。有的字本身就是一個詞,有的由二個字構成,有的由三個字構成,甚至有的由四、五個字構成。因此越南語的詞匯構成比較復雜,具體來講就是復合詞多,但由于在書寫上字與字之間有空格(有的字本身就是詞,也就是詞與詞之間有空格),這與英語等西方語言相似,而英語等書寫時空格是詞的天然分隔界線;越南語則需要判斷詞的構成。其實,漢語由漢字組成,有的漢字本身就是一個詞,有的則不是,是由兩個或兩個以上的漢字構成。在這一點上,越南語與漢語呈現出較強的相似性。在自然語言處理、語言研究等領域,詞匯劃界是第一步,也是最關鍵的一步。在分詞的實踐過程中,少量的語料可通過人工來完成,但大批量的語料通過人工來做顯然不可能。因此開發計算機程序來進行自動分詞并進行自動詞性標注成為趨勢。以漢語為例,現在比較成熟的分詞軟件比較多,典型的有中國科學院計算技術研究所研制的漢語詞法分析系統ICTCLAS,該系統分詞正確率高達97.58%,已被日本、新加坡、韓國、美國以及其他國家和地區的人員使用。(見劉克強,2009);此外,教育部語言文字應用研究所計算語言學研究室研制的CorpusWordParser也被廣大用戶使用。越南語分詞與標注軟件發展相對緩慢,但近幾年來也有相當不錯的幾件產品問世,促進了越南語自然語言處理及越南語研究的發展。下面首先回顧下分詞軟件的發展與歷史,然后介紹越南語分詞軟件,最后說明分詞后的語料的作用。
1 分詞軟件的類型及特點
分詞軟件顧名思義一般是指給文本進行分詞并標注詞類的計算機程序。分詞軟件的研制始于英語語料。自從世界上第一個電子語料庫Brown語料庫于1964年問世,學者們經過十年左右的努力,終于推出了第一個詞性標注版的Brown語料庫。可以說,Brown語料庫無論是在語料庫建設方面還是在計算機自動詞性標注方面都是開拓性的。Brown語料庫的標注程序名為TAGGIT,是基于英語語言規則設計的,該程序工作分兩個階段:第一階段先給每個詞指定一個或幾個初始詞性,如“like”給出介詞、動詞、名詞、形容詞、連詞及副詞共六種初始詞性;第二階段運用“上下文框架規則”進行詞性排歧,盡可能地獲得唯一的詞性。程序使用的上下文框架規則多達3300條,標注的準確率為77%(Greene&Rubin,1971),該系統采用86種詞性標記。盡管現在看來準確率較低,但當時已為詞性自動標注的一大突破,此后問世的其它類型的標注軟件很多是在標注后的Brown語料庫訓練基礎上研制的。
根據程序所使用的原理,可將軟件分成三類:基于語法規則;基于概率;基于神經網絡/基于轉換(模板)。上述的TAGGIT是典型的基于語法規則的詞性標注系統,應該說對于特定的語料,使用限于一定的范圍內,基于規則的錯誤率較低,但由于語言規則的不可窮盡性和語言的復雜性,特殊是語料容量龐大時,這種方法的局限性就明顯出來,準確率會大打折扣。
基于概率的方法,就是利用統計的方法,通過概率確定詞的具體詞性。LOB語料庫首先采用此方法。在英國蘭卡斯特(Lancaster)大學由著名語言學家Leech的領導下,研究小組根據LOB語料庫提供的133×133個標注過渡矩陣研制了CLAWS(the Constituent Likelihood Automatic Word-tagging System)程序,使用133種詞性標記,標注準確率達96-97%。此后不斷改進,目前推出CLAWS 4.0版,詞性標記多達170個。基于概率的方法是準確率高,能處理“不規范”的表達,但由于使用的矩陣概率的方法,缺少語言學信息,不能處理相距較遠的附碼。
基于神經網絡/基于轉換(模板)的方法,目前介紹較少,因此往往將基于轉換的方法稱為詞性標注的第三種方法。該方法也使用概率統計原則,但與概率方法不同的是,在詞類最可能的概率獲得后,編制一套轉換規則的模板,用這模板重新標注語料,再次產生新的規則,如此周而復始,直到沒有新的規則。此方法總體正確率高,效率也高,但缺點是如果標注語料與訓練語料語域類型不同時,則準確率明顯下降,呈現不穩定性。
2 越南語詞性標注軟件
越南語的詞性標注軟件發展相對滯后,據可獲得的文獻,這些軟件基本都是在本世紀初近更近的時間研制的,目前可以下載共享的有VLSP(Vietnamese Language and Speech Processing),即越南越南語語言及言語處理項目組成員開發的系列軟件,其中包括分詞軟件,如VietTagger,JVnTagger及JVnTextPro。其中,后者兩者為前者的升級版,目前版本分別為JVnTagger 1.0.0,JVnTextPro 2.0;另一個就是越南河內國家大學Lê H?ng Ph??ng博士開發的越南語文本處理工具包vnToolkit 3.0,其中含括分詞軟件vnTokenizer、詞性標注軟件vnTagger以及分句軟件vnSentDetector。據Lê H?ng Ph??ng個人主頁介紹,vnTokenizer 的準確率和召回率介于96%―98%之間,而vnTagger的準確率達到96%左右,目前vnTagger的最新版本為4.2.0。
軟件VietTagger,JVnTagger及JVnTextPro依據最大熵原理和條件隨機場開發,屬于概率型分詞軟件,軟件按輸入文本、斷句、切句、分詞、標注及輸出六個步驟進行,用戶可在此基礎上進行二次開發;vnTagger可在Unix/Linux和Windows操作系統下運行。下表以JVnTagge 1.0.0和vnTagger 4.2.0版本為例,列出兩款軟件的特點:
表1 JVnTagge 1.0.0和vnTagger4.2..0特點
開發者 準確率 語言 賦碼集 處理對象 輸出格式
JVnTagger 1.0.0 Phan Xu?n Hi?u 93% Java 17 文件夾 txt
vnTagger 4.2.0 Lê H?ng Ph??ng 96% Java 17 單文本 Txt,xml
從上表可發現,JVnTagge 1.0.0的最大特點是可進行批量標注,效率高;vnTagger 4.2.0的優勢在于準確率高,而且輸出文件格式除.txt文件外,還可以生成.xml文件,便于文件及數據間的傳輸。
3 分詞標注文本的應用
Leech(2005)認為語料進行詞性標注后就成為“增值”了的文本,也就是說相對于原始文本,其利用價值會更高。一般語料庫檢索軟件都可以實現詞表功能、描述搭配功能等。
經過詞性標注后的文本,任何一詞的詞性十分清楚。下圖是筆者建立的一個微型越南語語料庫,該庫經vnTagger 4.2.0進行標注,利用AntConc的詞表功能的一個截圖。
圖1
從上圖可發現“nh?t”一詞有三種詞性,分別標注為nh?t/a,nh?t/m及nh?t/r。其中前者為形容詞、中間為數詞,后者為副詞。這此語料庫中形容詞及副詞的頻率分別為24及時10,而數詞僅出現一詞。此外,nh?n_m?nh/V表示字nh?n與m?nh組成詞nh?n m?nh,這個復合詞為動詞,中間符號“_”將兩個字合二為一,這就是分詞的結果。如果不進行詞性標注,不但這三種詞性區分不清楚,而且由于此詞與其它詞組成的復合詞也未能區分,造成混亂,不利于越南語言研究和學習。
詞的搭配是語言研究和語言教學中的重點內容。尤其是對越南語這種復合詞占多數的語言來說,分詞后才能對詞的搭配進行較為準確的研究。值得注意的是,由于該語料庫主要收集的是有關電腦及網絡方面的語篇,上述的結果中有很多名詞與電腦及網絡有關。此外,分詞在自然語言處理中對句法標注也起關鍵的作用,句法標注的基礎是詞性標注。這里從略。
4 結束語
上面分別介紹了越南語的一些特點,針對越南語單詞的界線不明確,需要進行分詞才能劃出詞的界線,將語料中的單詞清晰地給出。越南語的分詞軟件JVnTagger及vnTagger是常見的兩款免費共享軟件,功能相對強大,分別有各自己的特點,可滿足不同用戶的需要。最后說明了分詞后的文本的應用,強調分詞詞表及搭配詞表的意義,對越南語的研究及教學必將產生有益的作用。
參考文獻:
[1]Greene B.B.,Rubin G.M..Automatic grammatical tagging of English,Department of Linguistics.Brown University,Providence,RI,USA,1971.
[2]Leech,G.‘Adding Linguistic Annotation’,in M.Wynne,Developing Linguistic Corpora:a Guide to Good Practice.Oxford:Oxbrow Books,2005:17-29.
[3]Quan Vu,Trung Pham,Ha Nguyen."Toward a Multi-Objective Corpus for Vietnamese Language",PROC.COCOSDA2003,Singapore,2003.
[4]劉克強.2009共享版ICTCLAS的分析與使用[J].科教文匯(上旬刊),2009(08).
[5]王建新.計算機語料庫的建設與應用[M].北京:清華大學出版社,2005.
作者簡介:劉克強(1971.06-),男,陜西西安人,教授,碩士,研究方向:語料庫語言學及文學。
篇9
[關鍵詞]互聯網 軍事輿情 信息技術 輿情分析
[分類號]G250
1
引言
在軍事情報搜集和處理中,公開情報資料搜集是一個很重要的方面。美國中央情報局80%的情報來源于公開材料,德國新聞情報局每天將搜集和處理后的公開情報資料匯總成《每日新聞簡報》呈送,以色列情報機關公開承認其所獲情報65%來自報刊、廣播、電視和學術研究論文等公開渠道,其他許多國家也設立了專門的公開情報搜集機構。網絡輿情作為一種新形式的公開情報資料,由于其開放性、及時性以及便捷性等特點,越來越受到情報工作者的重視,甚至很多情報工作者紛紛將網絡輿情作為其公開情報資料搜集的第一來源。
軍事網絡輿情主要是指國內外互聯網絡媒體中關于軍事事件的評論和觀點。軍事網絡輿情作為一種特殊的網絡輿情,除了網絡輿情所擁有的特點外,還有其自身特殊性。評論和觀點往往都集中在一些敏感和焦點問題上,例如中國軍費問題、中國軍事威脅等。在進行輿情分析與監控時,軍事網絡輿情將會是最為重要的部分。同時,由于國外一些媒體往往對其民眾進行錯誤引導,軍事網絡輿情中的許多看法可能偏向負面,在進行分析和監控時就必須注重對這一部分輿情的判別,這對于做好軍事情報分析工作至關重要。本文以開發軍事網絡輿情分析系統MNPOS(NetworkPublic Opinion System in Militaty)為背景,在分析國內主要輿情系統基礎上,研究輿情采集、輿情處理和輿情服務的系統架構及其關鍵技術的實現方法。
2 網絡輿情系統比較及軍事網絡輿情系統特點
2.1
國內輿情系統的主要功能與應用
網絡輿情系統中的關鍵技術,一方面與信息分析的具體功能和解決方案密切相關;另一方面又隨網絡輿情內容、范圍和傳播應用不斷推陳出新。這些技術包括各種信息采集、特征抽取、數據挖掘、文本分析、自動分類、自動聚類、自動摘要、智能檢索等技術。當前的新形態信息交互模式有網絡新聞、論壇、博客、維基等,其信息采集技術從早期的靜態頁面信息獲取發展到動態數據庫數據獲取,從傳統的網絡蜘蛛發展到可自主調整的高效搜索,從字符串匹配的檢索實現發展到知識環境下的智能檢索;相應的信息運用多元統計等方法進行分析,其基礎聚類分析方法有概念語義空間與相似度、基于支持向量機與無監督聚類相結合的網頁分類等;技術上采用決策樹、神經網絡、樸素貝葉斯、組合分類器、遺傳算法、粗糙集、最近鄰技術等多種分類方法。
國內一些較典型的網絡輿情系統概述分析如下:
?谷尼國際Eoonie互聯網輿情監控系統。該系統通過對互聯網海量信息自動獲取、自動聚類、主題檢測和專題聚焦,實現用戶的網絡輿情監測和新聞專題追蹤,形成簡報、分析報告等結果。運用內容抽取識別、相似性去重等技術獲取網絡中的熱點和敏感話題,根據統計等策略分析不同時間內的主題關注程度和預測發展趨勢。該系統在國內的用戶有待進一步增加。
?中科點擊軍犬網絡輿情監控系統。它使用強大的采集軟件對數千網站進行監控,自動獲取輿情信息的熱度,并生成報表;同時可獲取熱點主題的瀏覽量、回復數,并跟蹤發帖人,對輿情信息進行管理、標注和分類,并根據重要性對輿情信息進一步篩選和過濾。其采集性能比較好,但分析處理功能有待進一步提高。
?北京拓爾思TRS網絡輿情監控系統。該系統采用多種技術,實現對輿情信息的精準和全面采集,同時綜合運用大規模文本智能挖掘技術,實現對海量輿情信息的準確、高效分析和管理。其輿情功能從用戶角度來看較為全面。
?北大方正智思網絡輿情監控分析系統。該系統襤合互聯網搜索及信息智能處理等技術,通過對網絡信息自動抓取、自動分類聚類、主題檢測、專題聚焦等方法,實現網絡輿情監控和新聞專題追蹤等功能。其開發比較早,應用也較多,但相關的更新功能相對較少。
2.2
軍事網絡輿情系統的特點和相關研究
相比較當前市場上通用的網絡輿情分析系統,軍事網絡輿情系統MNPOS對軍事類突發事件的網絡輿情相關研究更為關注,快速的專題聚焦、敏點發現追蹤和傾向分析規則都具有新的特點。而目前的網絡輿情分析還沒有一個完整的解決模型,研究主要是獲取網絡輿情話題的一般信息和主題信息,注重獲取輿情話題的主題內容,例如作者、發表時間、話題類型等,缺乏對話題評論焦點、情感傾向、事件關系等深層輿情信息的發現,忽視從事軍事的群體對話題的情感、事件關系及變化趨勢的分析。
傳統研究方法沒有對大規模軍事網絡數據進行分析,使得網絡輿情系統無法適應網絡環境下海量軍事數據的特點;只利用簡單的統計方法給出話題變化趨勢直接作為預警信息,缺少基于知識的推理。存軍事領域,網絡輿情系統不提供完整的軍事類突發事件網絡輿情傳播理論,大都以管理者需求為牽引而采用具體針對性的技術進行解決,造成技術整體上不具有連續性和系統性,很難形成一套完整的軍事網絡輿情解決方案,勢必影響到軍事網絡輿情應對策略和方法的實用性、先進性和可靠性。因此,無論是社會科學領域還是工程技術領域,對軍事網絡輿情的基礎理論研究都處于起步階段,大多數研究成果屬于方法上的研究范疇,軍事網絡輿情的監測與預警工作不夠全面和系統化,軍事網絡輿情的應對策略還不夠科學和規范。
3
軍事網絡輿情系統MNPoS功能及其體系架構
在MNPOS軍事網絡輿情分析系統中,運用軍事知識語料對網絡信息采集與提取,提高網絡輿情監測分析的智能化程度,解決網頁的靈活性和復雜性、內容的動態性和多態性、信息的龐雜性和不完整性所給系統提取軍事網絡輿情信息帶來的困難;運用軍事類話題發現與跟蹤技術識別出給定時間段內上網媒體的熱門話題,分析熱門軍事話題在不同時段內媒體所關注的程度,對突發事件進行跨時間、跨空間綜合分析,獲知事件發生的全貌并預測事件發展的趨勢,對涉及內容安全的敏感話題及時發現并報告,為網絡輿論引導提供支持;運用軍事知識傾向性分析技術挖掘出網絡文本內容蘊含的深層軍事觀點、態度等信息,對媒體言論傾向進行符合軍情的分析;運用多文檔自動文摘技術對軍事網絡論壇等信息進行提煉概要。
本系統采用模塊化的軟件設計方法,共分為網絡輿情采集、網絡輿情處理和網絡輿情服務三個功能層面,系統體系架構見圖1。
3.1
網絡輿情采集
網絡輿情采集主要是利用網絡蜘蛛的原理進行網
頁采集,按照預先設定好的軍事主題和網址塒網絡上的軍事數據進行定點、定主題的抓取,例如新聞、論壇、博客等主題網站。最后將抓取的結果以XML文件格式保存在本地。網絡輿情采集是輿情分析處理和提供輿情服務的基礎,只有高質量和高效率的網絡輿情采集才能保證數據的可靠性和及時性。
3.2 網絡輿情處理
網絡輿情處理是整個系統的核心,它對所有采集到的數據進行相關處理,主要由網頁智能抽取、關鍵詞自動提取、主題自動分類、輿情傾向性分析和敏點輿情標注等組成。首先,基于軍事主題和分類知識將采集模塊抓取到的XML文件中的主題、內容、作者、時間、來源等存入網絡輿情信息庫,通過關鍵詞自動提取和主題自動分類將每條記錄的關鍵詞和主題分析出來,進行傾向性分析和敏點輿情標注,最后生成自動文摘。另外,在主題分類過程中,若文檔不屬于任何預設軍事主題則進行主題自動聚類處理,自動分析出新的軍事主題。
3.3 網絡輿情服務
分析結果進入網絡輿情服務,并最終展示,包括輿情報告的生成、熱點和敏點軍事主題的列表顯示、統計圖表等,供輿情部門的工作人員和決策部門的領導隨時進行軍事輿情的監控。
MNPOS系統在設計和實現過程中遵循軟件工程原則,使用,NET Framework作為基礎類庫,在此基礎上綜合運用VB和c#以及ASP技術進行開發,保證技術上的先進。另外,為保證系統的可靠性和可擴展性,采取數據層、事務層和表現層分離的模塊化設計原則,分為輿情采集、輿情處理和輿情服務子系統分別進行實現。
4 MNPOS系統中軍事輿情分析關鍵技術研究
MNPOS軍事網絡輿情分析是系統核心模塊,其質量和效率直接影響到整個系統。
4.1
MNPOS軍事主題信息采集
MNPOS主題信息采集由下載器從互聯網上讀取軍事網頁并保存到本地,分析器運用軍事語料和相關正則表達式提取其中所有超鏈壓人一個URL隊列,之后從該隊列中順序讀取URL并下載,該過程循環進行直至將指定網站的網頁抓取完畢。程序關鍵在于多線程管理和鏈接地址的分析,目前C#提供了良好的多線程管理機制和對正則表達式的支持,為開發多線程程序提供了極大的方便。
MNPOS軍事網頁信息抽取,首先選擇相應的抽取規則進行智能抽取,將相應的內容抽取出后進行數據清洗,去除重復記錄和信息,合并相同標題不同內容的信息,最后將清洗后的數據存人軍事輿情數據庫。該處理過程包含在包裝器中,對于用戶來說是透明的。另外,在規則生成部分采用軍事專家模式,即對網頁的結構進行分析,然后手工進行規則的提取,因此,所生成的規則比較精確,對于相應軍事網頁的抽取質量和精確度較高。
4.2 MNPOS軍事輿情分類和傾向分析
將處理后的信息分入預先設置好的軍事分類,對于網絡輿情服務具有至關重要的作用。分類模塊主要采用KNN和SVM分類法,其中的特征選擇結合了信息增益、互信息和a2統計等方法和軍事主題分類概念庫,采用目前分類質量較高的一些開源程序進行改造,將其集成到系統中保證分類質量。
MNPOS軍事輿情文本分類分為兩個過程:①訓練過程,決定分類機的質量。首先由軍事專家完成訓練集的挑選,然后在預處理過程中進行參數選擇、訓練后進行參數調整等。②根據訓練過程所生成的分類機進行分類,其中最重要的是預處理和分類進程,預處理是對待分類文本進行數據清洗和特征表示的過程,本系統的訓練和分類進程采用SVMCLS 2.0開源程序。
輿情傾向性分析是根據輿情內容判斷該輿情是正面還是負面的一個過程。常用的方法有基于機器學習和基于語義理解等,目前MNPOS系統采用基于機器學習的方法。系統中設計有六個類別(美國對售、中國反導試驗、中美軍事關系、中印關系、中國航天發展、中國武器裝備),以其中的“中美軍事關系”舉例,可以將該類的文本根據其內容分為正面和負面兩類,然后再訓練出兩個分類器:“中美軍事關系正面”和“中美軍事關系負面”,六個類別即可生成12個分類器,然后對這些待分類文本進行分類,并且在數據庫相應字段內用1和0來分別標注正面和負面信息。這種方法實現起來較為簡單,而且準確率較高,不足是在構建訓練集時需要大量軍事專家進行手工編制,實現中充分利用軍事信息管理學科的優勢和成果來構建傾向性分類訓練集。
4.3 MNPOS軍事敏點輿情標注
篇10
【關鍵詞】聲紋識別;小波濾波器組;基音周期;Mel倒譜系數;高斯混合模型
1.引言
說話人聲紋識別可以看作是語音識別的一種。它和語音識別一樣,都是通過對所收到的語音信號進行處理,提取相應的特征或建立相應的模型,然后據此作出判斷。而區別在于它并不注意語言信號中的語義內容,而是希望從語音信號中提取出人的特征。從這點上說,說話人聲紋識別是企求挖掘出包含在語音信號中的個性因數,而語音識別是企求從不同人的詞語信號中尋找相同因素。在處理方法上,說話人聲紋識別力圖強調不同人之間的差別,而語音識別則力圖對不同人說話的差別加以歸一化。世界范圍內,聲紋識別技術正廣泛應用于諸多領域。截止到去年年初,聲紋識別產品的市場占有率為15.8%,僅次于指紋識別和掌形識別。
現有文獻中用于說話人識別的特征許多是建立在短時頻譜基礎上。它們主要有Mel頻率倒譜系數(MFCC),LPC倒譜系數,差值倒譜等。在聲紋識別技術中,目前研究最多的方法有:模板匹配法、概率模型法和人工神經網絡法。Soong等人將矢量量化技術用于與文本無關的說話人是被系統。Rosenberg等人利用子詞單元構成的隱馬爾科夫模型(HMM),建立了一個說話人確認系統。Delesby等人利用徑向基函數神經網絡方法進行說話人識別[1]。我國的北京大學以遲惠生為領導的說話人識別研究團體、清華大學以楊行峻為領導的研究團體以及中國科學院聲學所和東南大學也在這個方面取得了非常優秀的科研成果.從國內外文獻看來,有的著重距離測度,但是大多數向幾種方法如HMM、GMM和ANN混合的方向發展。
2.聲紋識別的基本原理及相關算法
2.1 基本原理
聲紋識別的基本原理如圖1所示,主要包括兩個階段,即訓練和識別階段。
訓練階段,系統的每個使用者說出若干訓練語句,系統據此建立每個使用者的模板或模型參數。識別階段,由待識人說的語音經特征提取后與系統訓練時產生的模板或模型參數進行比較。在主說話人的辨認中,取與測試音匹配距離最小的說話人模型所對應的說話人作為識別結果;在說話人確認中,則通過判斷測試音與所聲稱的說話人的模型的匹配距離是否小于一定閉值做出判斷。
2.2 語音信號的預處理
在語音信號特征提取之前,首先要進行的一個環節就是對輸入語音信號的預處理,主要包括預濾波、預加重、加窗分幀以及語音端點檢測等過程。本文就以涉及到的預濾波進行描述,預濾波在本文中是通過小波濾波器組來實現。預濾波器必須是一個帶通濾波器,其上、下截止頻率分別是和。對于絕大多數語音處理中,,,采樣率為。
2.3 聲紋特征提取
2.3.1 概述
提取說話人特征就是把原來語音中的冗余信息去掉,找到我們關注的語音特征信息,是一個減小數據量的過程。從說話人語音信號中提取的特征參數應滿足以下準則:對外部條件具有魯棒性(如:說話人的健康狀況和情緒,方言和別人模仿等);能夠長期地保持穩定;易于從語音信號中進行提取;與其他特征不相關。
2.3.2 典型聲紋特征參數提取算法
聲紋特征參數主要有以下幾種:基音周期、短時過零率、線性預測(LPC)、線性預測倒譜系數(LPCC)、Mel頻率倒譜系數(MFCC)、以及經過噪聲譜減或者信道譜減的去噪倒譜系數等,每一種特征參數都有其相應的提取算法。在聲紋特征提取這一點,本文將采用基音周期和Mel頻率倒譜混合的參數作為特征參數。
2.3.2.1 線性預測(LPC)方法
語音線性預測的基本思想是:利用過去的樣值對新樣值進行預測,然后將樣值的實際值與其預測值相減得到一個誤差信號,顯然誤差信號的動態范圍遠小于原始語音信號的動態范圍,對誤差信號進行量化編碼而達到最小,可以確定唯一的一組線性預測系數。目前主流算法有Durbin遞推算法、Levinson遞推算法、舒爾(schur)算法和個性算法[2][3]。由于LPC分析是基于全極點模型的假設,所以它對于聲道響應含有零點的清音和濁音和鼻音描述不確切。
2.3.2.2 線性預測倒譜系數(LPCC)
倒譜特征是用于說話人個性特征和說話識別人識別的最有效的特征之一。語音信號是聲道頻率特性和激勵源信號源兩者共同卷積的結果,后者對于某幀而言常帶有一定的隨機性,而說話人的個性特征很大程度上取決于說話人的發音聲道,因此要將此二者進行有效的分離,可以通過對信號做適當的同態濾波,將相卷積的兩個部分分離。濾波的關鍵是先將卷積處理化為乘積,然后做對數處理,使之化為可分離的相加成分。線性預測倒譜系數可由LPC特征進行推導,基于LPC系數分析得倒譜存在一種非常簡單有效的遞推求解方法。LPCC參數比較徹底地去掉了語音產生過程中的激勵信息,主要反映聲道特性,只需要十幾個倒譜系數能比較好的描述語音的共振特性,計算量小,其缺點是對輔音的描述能力較差,抗噪聲性能也較弱。
2.3.2.3 梅爾倒譜系數(MFCC)
MFCC著眼于人耳的聽覺感知機理。因為聽到的聲音的高低與聲音的頻率的并不成線性正比關系,Mel頻率的尺度更符合人耳的聽覺特性。用Mel濾波器組對語音信號進行濾波和加權,使語音信號更加接近于人耳聽覺感知系統特性,MFCC特征成為目前說話人識別和語音識別中最為廣泛的特征參數。根據倒譜計算過程,MFCC計算過程可以簡單地描為如下四個步驟:
(1)對語音信號進行短時傅里葉變換,得到各個幀的頻譜。
(2)在Mel頻率的軸上配置L個通道的三角濾波器組,L的個數由信號的救治頻定。每一個三角濾波器中心頻率c(l)在MEL頻率軸上等間隔分配。設o(l)、h(l)分別是第L個三角濾波器的下限、中心和上限頻率,則相鄰三角形濾波器的下限、中心和上限頻率有如下關系成立:
2.3.2.4 基因周期系數
基音是指發濁音時聲帶振動引起的周期性,而基音周期是指聲帶振動頻率的倒數,基音可以分為時域、頻域以及綜合利用信號時域頻率特性等三種提取模式,時域包括利用語音信號的采樣點計算信號的波峰、波谷和過零率等,典型的方法是Gold和Rabiner提出的并行處理方式;頻域的方法主要是計算信號的自相關函數、功率譜和最大似然函數等,其精度要高于時域方法,典型的方法是有中央消波自相關法、平均幅度差分函數法和倒譜法等。本文章選用倒譜法進行基因周期的提取。
1)倒譜法原理
語音信號是激勵源與聲道相應相卷積的結果,而“倒譜特征”則是利用了對語音信號進行適當的同態濾波后,可將激勵信號與聲道信號加以分離的原理。倒譜中維數較低的分量對應于語音信號的聲道分量,倒譜中維數較高的分量對應于語音信號的音源激勵信號。因此,利用語音信號倒譜可將它們分離,彼此基本上互不干擾,并可以避免聲道分量受到隨機變化的音源激勵分量的干擾。
可見,倒譜域中基音信息與聲道信息可認為相對分離的。采取簡單的倒譜法可以分離并恢復e(n)和v(n),根據激勵e(n)及倒譜的特征可以求出基音周期。然而,反應基音信息的倒譜峰在含過渡音和噪語音中將會變得不清晰甚至完全消失。原因主要是因為過渡音中周期激勵信號能量降低和類噪激勵信號干擾或含噪語音中的噪聲干擾所致。這里可以采用一個簡單的方法,就是在倒譜分析中,直接將傅里葉變換之前的(IFT)頻域信號(由原始作FT逆變換再取對數后得到)的高頻分量置零。可以實現類似于低通濾波器的處理,濾去噪音和激勵源中的高頻分量,減少了噪聲干擾。圖2是一種改進的倒譜基音檢測的算法框圖。
2.4 聲紋識別技術
2.4.1 概述
聲紋識別的基本原理是為了每個說話人建立一個能夠描述這一說話人特征的模型,以其作為這一說話人的個性特征。在目前的話音特征與說話人個性特征還未很好的從語音特征中得到分離情況下,為每個說話者建立的說話人模型實際上是說話人的語音特征得模型。為對說話人個性特征描述的一致起見,構造一個通用的模型,常將每個說話人的模型結構取得相同,不同的只是模型中的參數,通過用訓練語音對模型進訓練得到。
2.4.2 典型的聲紋識別算法
目前說話人識別模型主要有DTW(動態時間規劃),VQ(矢量量化),GMM(高斯混合模型),HMM(隱馬爾科夫模型),NN(神經元網絡),SVM(支持向量機)等。本文用到GMM(高斯混合模型),所以后面會對其算法進行了詳細的描述。
2.4.2.1 動態時間規劃(DTW)
說話人信息既有穩定因素(發聲器官的結構和發聲習慣),也有時變因素(語速、語調、重音和韻律)。將模式識別與參考模板進行時間對比,按照某種距離測定得出兩模板間的相似程度。常用方法是基于最近鄰原則的動態時間規劃DTW,但DTW只對孤立詞識別性能較好,并且高度依賴于定時,目前應用不廣。
2.4.2.2 矢量量化方法(VQ)
矢量量化是一種極其重要的信號壓縮方法,它廣泛應用于語音編碼、語音識別與合成、說話人識別、圖像壓縮等領域,基于非參數模型的VQ的方法是目前自動話說人識別的主要方法之一。完成VQ說話人識別系統有兩個步驟:(1)利用說話人的訓練語音,建立參考模型碼本。(2)對待識別說話者的語音的每一幀和碼本之間進行匹配。由于VQ碼本保存了說話人個性特征,這樣我們就可以利用VQ法進行說話人識別。在VQ法中模型匹配不依賴于參數的時間順序,因此匹配過程中無需采用DTW技術;而且這種方法比應用DTW方法的參考模型儲量小,即碼本碼字小。
用矢量量化方法建立識別模型,既可以大大減少數據存儲量,又可以避開困難語音分段問題和時間規整問題。但是每個說話人的碼本只是描述了這一說話人的語音特征在特征空間中的聚類中心的統計分布情況。在訓練階段為了充分反映說話人的個性特征要求訓練語音足夠長;在識別時為了使測試語音的特征矢量在特征空間中的分布能夠與相應的說話人碼本相吻合,所以同樣要求有足夠長的測試語音,在測試語音很短的情況下,這種方法的識別率將會急劇下降。
2.4.2.3 隱馬爾科夫模型
HMM模型是馬爾科夫鏈的推廣,隱馬爾科夫模型是一種基于轉移概率和傳輸概率的隨機模型。它把語音看成由可觀察到的符號序列組成的隨機過程,符號序列則是發聲系統序列的輸出。在HMM中,觀察到的事件與狀態通過一組概率分布相聯系,是一個雙重隨機過程,其中一個是Markov鏈,他它描述了狀態之間的轉移;另一個隨機過程描述狀態和觀察值之間的統計響應關系。HMM模型的狀態是隱含的,可以觀察到的的是狀態產生的觀察值,因此稱為隱馬爾科夫模型(HMM)。HMM模型同樣廣泛用于與文本相關的說話人識別中,并且比傳統的方法有著更好的性能。HMM不需要時間規整,可節約判決時計算時間和存儲量,在目前被廣泛應用。缺點是訓練時計算量大。
2.4.2.4 基于支持向量機(SVM)的方法
SVM是Vapnik提出的一種基于結構風險最小化二元分類器,通過非線性變換將原始集合映射到高維空間,轉化為某個高維中的線性問題,尋找最優分類面,具有很好的泛化和分類能力,在手寫/文字識別、文本分類和人臉識別等模式領域中取到成功的應用[4]。SVM實際上是一種辨別模式,一般情況下它只能辨別兩類數據,因此需要正反兩類數據進行訓練。因此SVM要在說話人識別中應用,必須要解決多類分類問題。解決說話人識別的多分類問題的主要有三種形式[4]:
1)為每個人建立一個SVM,訓練數據由目標說話人和背景說話人的語音分別構成“+”、“??﹣”數。
2)為每一對說話人建立一個SVM,由N個人則建立N*(N-1)/2個SVM。
3)決策樹分類:決策樹上每個節點將多個說話人分為兩個子集,或者是一個說話人(葉節點)。