Attention-Based LSTM算法及文本分類模型分析

時間:2022-08-19 11:06:11

導語:Attention-Based LSTM算法及文本分類模型分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

Attention-Based LSTM算法及文本分類模型分析

摘要:本次研究針對文本數據處理工作中的文本分類項目提出了一套基于attention-basedlstm算法的分類模型,根據Atten-tion-Model的基本原理對Attention-BasedLSTM算法數據處理方式進行了詳細介紹。最后將Attention-BasedLSTM算法應用于來自國內外主流門戶網站文本數據的分類處理工作。經統計分析發現,Attention-BasedLSTM算法相比于常規LSTM算法和Bi-LSTM體現出了更高的分類準確率水平,在文本數據處理方面具有一定的應用價值。

關鍵詞:數學模型;文本分類;Attention-BasedLSTM算法

1引言

在自然語言處理領域中,文本分類是一個十分重要的研究方向,以往的文本分類研究主要涉及機器分類器訓練、文本特征提取、文本預處理等內容。隨著圖像識別與深度學習技術不斷成熟,深度學習模型在機器翻譯領域得到了廣泛的應用,并且在特征提取和數據預處理方面體現出了獨特的優勢。除此之外,合理應用文本分類技術,還有利于簡化文本數據的搜索流程,提高用戶在門戶網站中的內容搜索效率,在改善用戶體驗的同時也助于減輕服務器運行壓力,節約計算資源。

2Attention-Model的基本原理

Attention-Model(注意力模型)借鑒了人腦將注意力集中在某一事物而忽略其他事物的特點,對關鍵數據資源進行集中處理。在自然語言處理方面,Attention-Model通常會與Encoder-Decoder結合起來使用。Encoder-Decoder模型的核心思想是利用Encoder模塊對輸入序列實施編碼,再通過Decoder模塊實施解碼,方便與Attention-Model模型相結合。Encoder-Decoder模型的基礎框架如圖1所示。本次研究將圖1中的“input”表示為序列X={x1,x2,x3,…,xn},將“output”表示為序列Y={y1,y2,y3,…,yn}。在計算過程中,首先通過Encoder模塊對輸入序列實施編碼,若將編碼結果記為C,則C的表達方式為:C=F(x1,x2,x3,…,xn)(1)在此基礎上通過Decoder模塊對C實施解碼,將解碼結果記為yi,yi的表達方式為:C=G(y1,y2,y3,…,yi-1)(2)由此可知,Decoder在輸出yi的過程中自始至終采用相同的語義信息,序列X中的各個元素與序列Y中的各個元素均有著相同的影響力,并且各個元素的先后順序直接決定元素的影響力。另外,在語義編碼code向量維度的限制下,序列輸入較為的模型會存在部分有效信息丟失的問題,這與人腦的注意力分配機制有著本質的區別。因此,本次研究提出了Attention-Model機制,針對當前輸出yi的注意力概率分布狀況加以計算,獲取與yi元素一一對應的語義編碼信息,進而實現針對當前輸出的優化。Attention-Model與Encoder-Decoder相結合的模型框架如圖2所示。根據圖2可知,每一個輸出元素都有對應含有輸入序列概率分布的語義編碼C,因此可以通過如下公式來表示輸出結果yi:yi=F(Ci,y1,y2,y3,…,yi-1)(3)上式中,Ci為輸入序列X處于編碼階段時的歷史狀態,設S(xi)為輸入xi在編碼過程中的非線性函數處理結果,根據編碼過程中輸入序列所對應的狀態值能夠計算出這些狀態值對于輸出yi的注意力概率分布,并在此基礎上獲取與之相對應的語義編碼Ci,具體計算方法為:(4)上公式將輸入序列的元素的數目記為T,將輸入xj對輸出yi的注意力概率記為aij。在文本處理工作中,編碼階段和解碼階段最常見的配置模型為RNN(遞歸神經網絡)模型,具體計算過程如圖3所示。在圖3中,F函數是一種對齊概率計算方法,通過該函數對輸出yi在前解碼階段的隱藏層節點實施概率遠處即可獲得注意力分布概率。

3Attention-BasedLSTM文本分類模型

根據Attention-Model的基本原理可知,將Attention-Model與注意力概率分布結合起來使用,能夠強化關鍵輸入對輸出的影響。為了將Attention-Model應用于文本分類工作,本次研究提出了Attention-BasedLSTM(LongSh-ort-TermMemory)編碼模型,基于含有注意力概率分布的語義編碼來輸出文本特征向量。針對注意力分布概率進行計算是Attention-Model的核心任務,計算方法具體如下:在圖4中,atk代表注意力概率,即節點t對于輸出k的影響為權重,其計算方式決定Attention-Model的效率和作用。基本文本數據分類處理的工作特點,本次研究將At-tention-Model應用于編碼階段。設定文本輸入序列為x1,x2,x3,…,xT,針對該序列實施向量累加處理并計算均值,進而獲取文本總體輸入向量X',同時將X'定義為編碼階段最后的輸入。Hk對應輸入X'的隱藏層狀態值。h1,h2,h3,…,ht分別對應輸入序列x1,x2,x3,xT的隱藏層狀態值。基于Attention-Model的LSTM模型結構如圖5所示。在圖5中,aik代表歷史節點對于最后節點的注意力概率,X'代表文本總體的輸入向量表示,x1,x2,x3,…,xT代表文本的詞語表示。計算對于x1,x2,x3,…,xT對于文本整體的影響力權重,能夠有針對性地強化關鍵詞的作用,同時弱化非關鍵詞的作用。在數據處理方面,首先要計算注意力分布概率的語義編碼,具體方法如下:以上兩公式將輸入序列第i個元素對應的隱藏層的狀態值記為hi,將最后輸入對應的隱藏層狀態記為hk,將輸入序列的元素的數目記為T,將節點i對于節點K的注意力概率權重,U、W、v分別為權重矩陣。

4文本分類實驗

本次研究基于Google提供的機器學習庫Tensorflow對基于Attention-BasedLSTM數學模型的文本分類算法進行實驗分析,通過Python對算法進行編程,程序運行平臺為Ubuntu12.04操作系統。實驗語料數據分別來自Sougou實驗室語料庫、Amazonreviewsdataset、YahooAnswersdataset、Yelpreviewsdataset、DBPediadataset等。以Sougou實驗室語料庫為例,該數據集是由Sougou實驗室從科技、汽車、娛樂、財經、體育等5個門戶版塊所提取的新聞數據,第個類別包含12000條測試數據和90000條訓練數據,單個文本由內容、標題、類別三部分組成,所有文本均為長文本。同時選取LSTM、Bi-LSTM與本次研究所提出的At-tention-BasedLSTM進行對比,各個算法的分類準確率對比結果如表1所示。經實驗研究發現,本次研究所提出的Attention-BasedLSTM算法對于各種不同來源的語料庫均表現出了最佳的分類準確率水平。

5結束語

本次研究將Attention-Model與Encoder-Decoder結合起來并建立了一套基于Attention-BasedLSTM數學模型的文本分類算法。將該算法應用于文本數據分類處理工作,能夠有效強化關鍵詞對于整體文本的影響力,進而得出較為準確的注意力分布概率,最終實現文本數據的高精度分類。通過該技術對文本數據實施精準分類,有助于互聯網公司向用戶精準投送文本資料,提高網絡資訊服務水平。

作者:黃阿娜 單位:咸陽職業技術學院