網(wǎng)絡(luò)輿情分析研究現(xiàn)狀范文

時間:2023-05-30 16:11:28

導(dǎo)語:如何才能寫好一篇網(wǎng)絡(luò)輿情分析研究現(xiàn)狀,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

網(wǎng)絡(luò)輿情分析研究現(xiàn)狀

篇1

關(guān)鍵詞:智能檢測與分析;網(wǎng)絡(luò)輿情;數(shù)據(jù)挖掘

中圖分類號:TP393文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2011)04-0759-03

The Design of the Detection and Analysis of Public Opinion Intelligent Network System

YANG Qiu-ping

(Dongguan University of Technology, Network Information Center, Dongguan 523808, China)

Abstract: We pay more and more attention to network public sentiment. Especially, the government concerns the net post and net news of emergencies and important events. Then, the special systems for analysis network public sentiment exist. Firstly, this article analysis the systems of network public sentiment, and then finds out their shortages and study the correlative techniques. At last, this article introduces a new way to build a network public sentiment detecting and analysis system.

Key words: intelligent detecting and analysis; network public sentiment; data mining

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。網(wǎng)絡(luò)言論活躍已達(dá)到前所未有的程度,不論是對國家政策的討論,還是針對國內(nèi)或國際的重大事件,都能馬上形成網(wǎng)上輿論,這種網(wǎng)絡(luò)來表達(dá)觀點(diǎn)、傳播思想產(chǎn)生輿論壓力,達(dá)到任何部門、機(jī)構(gòu)都無法忽視的地步。

網(wǎng)絡(luò)輿情通過BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等形式對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題等進(jìn)行反應(yīng),其中不乏較強(qiáng)影響力、傾向性的言論和觀點(diǎn)。如果引導(dǎo)不善,負(fù)面的網(wǎng)絡(luò)輿情將對社會公共安全形成較大威脅。對相關(guān)政府部門來說,如何加強(qiáng)對網(wǎng)絡(luò)輿論的及時監(jiān)測、有效引導(dǎo),以及對網(wǎng)絡(luò)輿論危機(jī)的積極化解,對維護(hù)社會穩(wěn)定、促進(jìn)國家發(fā)展具有重要的現(xiàn)實(shí)意義,也是創(chuàng)建和諧社會的應(yīng)有內(nèi)涵。

1 系統(tǒng)價值

1.1 社會效益分析

網(wǎng)絡(luò)輿情智能監(jiān)測與分析系統(tǒng)利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)對網(wǎng)絡(luò)輿情的統(tǒng)計分析,并以此作為網(wǎng)絡(luò)輿情監(jiān)測的管理的依據(jù)。具體作用表現(xiàn)在以下幾個方面:

1) 系統(tǒng)向決策者提供客觀、準(zhǔn)確的輿情信息,有利于決策者做出正確的決策

2) 系統(tǒng)向決策者提供系統(tǒng)的、高效的、綜合的、全面的輿情信息,便于決策者全面的、正確的把握所需的信息, 提高決策效率, 啟迪決策思維

3) 系統(tǒng)能提供各種輿情的趨勢分析信息給決策者

1.2 經(jīng)濟(jì)效益分析

目前,由于互聯(lián)網(wǎng)的日益普及,各種輿情的不斷涌現(xiàn),好的、壞的都有。政府部門、大型機(jī)構(gòu)、社會企業(yè)等都希望能盡早識別不良傾向的、帶有煽動或甚至含有社會危害的言論,或者是獲取政策落實(shí)、制度實(shí)施效果等信息。這些需要揭示了系統(tǒng)建設(shè)在帶來巨大的社會價值的同時帶來巨大的經(jīng)濟(jì)效益。

2 同類系統(tǒng)現(xiàn)狀

基于目前的網(wǎng)絡(luò)現(xiàn)狀,為數(shù)不多的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)基本上是采用關(guān)鍵詞搜索進(jìn)行輿情信息檢測,由于關(guān)鍵詞搜索的查全率和查準(zhǔn)率都不高,因此網(wǎng)絡(luò)輿情監(jiān)測的效果不夠理想,更是無法自動發(fā)現(xiàn)新的輿情點(diǎn)。

部分網(wǎng)絡(luò)輿情檢測系統(tǒng)只是在企業(yè)內(nèi)部使用,無法適用于政府部門等大型機(jī)構(gòu),部分系統(tǒng)采用的算法效率低,不能快速對數(shù)據(jù)進(jìn)行處理,因而無法滿足超大網(wǎng)絡(luò)環(huán)境下的輿情檢測與分析,無法做到自學(xué)習(xí)成長,沒有類似知識庫的自動累積處理功能,必須人工協(xié)助處理。基于此種情況,提出創(chuàng)建《網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)》項(xiàng)目來解決這些問題。

3 網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)簡介

該系統(tǒng)核心部分包括信息獲取、信息處理、前端信息展現(xiàn)幾個部分。實(shí)現(xiàn)從網(wǎng)頁獲取數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行清洗、提煉、分析總結(jié),最終形成決策信息并存入數(shù)據(jù)庫中,提供靈活的前端查詢機(jī)制,把信息傳遞給決策人員。

網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)實(shí)現(xiàn)以下目標(biāo):1) 對熱點(diǎn)話題、敏感話題識別。2) 實(shí)現(xiàn)傾向性分析。3) 實(shí)現(xiàn)對輿情主題的跟蹤。4) 自動形成輿情摘要。5) 形成趨勢分析報告。6) 自動識別突發(fā)事件及發(fā)展趨勢。7) 對敏感內(nèi)容實(shí)現(xiàn)預(yù)警。8) 提供輿情分析統(tǒng)計報告提供決策支持。

4 系統(tǒng)關(guān)鍵技術(shù)研究

4.1 網(wǎng)絡(luò)輿情行為模式識別技術(shù)

對于“行為模式識別”算法應(yīng)用最廣和成熟的是防垃圾郵件的“行為模式識別技術(shù)”。在垃圾郵件的行為模式識別技術(shù)的基礎(chǔ)上,根據(jù)網(wǎng)絡(luò)輿情的特點(diǎn),輿情內(nèi)容內(nèi)在結(jié)構(gòu)關(guān)系、演化規(guī)律等基礎(chǔ)信息,收集網(wǎng)絡(luò)上典型的熱點(diǎn)話題、敏感話題、政策熱議等方面的適當(dāng)數(shù)量的文章組成行為識別學(xué)習(xí)訓(xùn)練庫,利用網(wǎng)上話題的熱度、焦度、敏度、頻度、銳度、歧度、粘度等度量指標(biāo)作為輿情分析的依據(jù),配以科學(xué)的算法,通過對“訓(xùn)練庫“進(jìn)行學(xué)習(xí)及總結(jié)、計算,結(jié)合網(wǎng)絡(luò)輿情信息產(chǎn)生和傳播的典型行為特征,建立網(wǎng)絡(luò)輿情行為模式數(shù)學(xué)統(tǒng)計模型,以此實(shí)現(xiàn)網(wǎng)絡(luò)輿情的智能發(fā)現(xiàn)。

4.2 自動分類和聚類技術(shù)[1]

自動分類是指按照已有的分類,把相關(guān)信息按照分類的標(biāo)準(zhǔn)進(jìn)行歸類。聚類則事先沒有定義特點(diǎn)的分類及標(biāo)準(zhǔn),是在分析過程中利用一定的算法,把類似的內(nèi)容進(jìn)行自動劃類并聚合的處理過程。

根據(jù)輿情分析的特點(diǎn),本系統(tǒng)基于統(tǒng)計的自動分類技術(shù),利用向量空間模型來表示輿情分析的文檔。對輿情文檔特征進(jìn)行抽取和加權(quán)、機(jī)器學(xué)習(xí)。在處理過程中,考慮到不同位置出現(xiàn)的語詞的價值不同而給定不同的加權(quán)系數(shù)。機(jī)器學(xué)習(xí)的方法主要有支撐向量機(jī)、最近K鄰居方法和貝葉斯算法[2] 等,可以根據(jù)輿情文檔的特點(diǎn)而選擇相應(yīng)的方法。

輿情文檔自動聚類的關(guān)鍵步驟有文檔表示、相似度計算、聚類和給出聚類標(biāo)識等。常用的聚類方法有單遍聚類法、逆中心距聚類法、密度測試法、圖聚類法等。在網(wǎng)絡(luò)輿情分析中,根據(jù)輿情分析的目的,選擇那些最具有區(qū)分性的特征,而不是大多數(shù)文檔都具有的特征來實(shí)現(xiàn)自動聚類。

在本系統(tǒng)解決方案中采取了自動歸類和自動聚類相結(jié)合的方式,先進(jìn)行自動歸類,再在各類別之下進(jìn)行自動聚類。

4.3 內(nèi)容分析技術(shù)

內(nèi)容分析法是一種對于傳播內(nèi)容進(jìn)行客觀,系統(tǒng)和定量的描述的研究方法。其實(shí)質(zhì)是對傳播內(nèi)容所含信息量及其變化的分析,即由表征的有意義的詞句推斷出準(zhǔn)確意義的過程。內(nèi)容分析的過程是層層推理的過程。隨著信息技術(shù)的發(fā)展,計算機(jī)的性能不斷提高,各種內(nèi)容分析技術(shù)也逐漸成熟,為網(wǎng)絡(luò)輿情的深度挖掘分析奠定了很好的基礎(chǔ)。

《內(nèi)容分析法:媒介信息量化研究技巧》[3]一書提供了系統(tǒng)全面的內(nèi)容分析研究的操作指南,深入分析了內(nèi)容分析中的各種常見問題,如測量、抽樣、信度、效度和數(shù)據(jù)分析中的各種技術(shù)。在進(jìn)行網(wǎng)絡(luò)輿情內(nèi)容分析前,獲取相關(guān)網(wǎng)絡(luò)輿情數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,獲取有針對性的、信息量大、覆蓋全面的、連續(xù)的內(nèi)容樣例,定義分析單元。對數(shù)據(jù)進(jìn)行量化處理形成評判記錄和進(jìn)行信度分析兩部分內(nèi)容,再根據(jù)網(wǎng)絡(luò)輿情建立合適的維度,最后進(jìn)行統(tǒng)計分析,并形成分析結(jié)論。

5 系統(tǒng)實(shí)現(xiàn)

在系統(tǒng)開發(fā)過程中,要建立了若干知識庫,利用垂直搜索、知識發(fā)現(xiàn)、自動分詞和抽詞、自動分類和聚類、內(nèi)容分析等技術(shù),實(shí)現(xiàn)對海量網(wǎng)絡(luò)信息進(jìn)行監(jiān)測、網(wǎng)絡(luò)輿情的自動發(fā)現(xiàn)和分析。該系統(tǒng)建設(shè)的核心是要收集圍繞主題的、足夠量的數(shù)據(jù),并經(jīng)過整理形成規(guī)范數(shù)據(jù)再進(jìn)行挖掘,輸出有用的決策信息,系統(tǒng)結(jié)構(gòu)圖如圖1所示。

系統(tǒng)涉及五個主要方面:

5.1 數(shù)據(jù)收集處理

進(jìn)行網(wǎng)絡(luò)輿情分析的前提是獲取基于某個主題的、數(shù)量足夠多的、完整的網(wǎng)絡(luò)數(shù)據(jù)。為了解決這個問題,系統(tǒng)建設(shè)時考慮通過建立數(shù)據(jù)收集規(guī)則來達(dá)到此目的。在數(shù)據(jù)收集規(guī)則時主要考慮要收集的主題、要搜索的范圍、更新頻度、收集要到達(dá)的數(shù)據(jù)量等。

在規(guī)則制定后,信息收集組件利用類似“網(wǎng)絡(luò)爬蟲”的技術(shù),按照已經(jīng)設(shè)置的收集規(guī)則,到網(wǎng)絡(luò)上進(jìn)行數(shù)據(jù)收集。 數(shù)據(jù)收集后按照主題歸于相應(yīng)的數(shù)據(jù)庫中,以便下一步的數(shù)據(jù)處理。

5.2 信息處理模塊

需要把收集的數(shù)據(jù)轉(zhuǎn)為有用的信息,在收集到相關(guān)數(shù)據(jù)后,先期對已經(jīng)收集完成的數(shù)據(jù)進(jìn)行格式化、數(shù)據(jù)清洗、信息處理加工等步驟,最終形成規(guī)范的、適于統(tǒng)計的數(shù)據(jù)。然后再利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行挖掘,形成相應(yīng)的統(tǒng)計信息,便于查詢輸出。下面將就關(guān)鍵核心的處理步驟進(jìn)行說明。

5.2.1 對原始數(shù)據(jù)的預(yù)處理

為了在數(shù)據(jù)挖掘分析前對數(shù)據(jù)進(jìn)行預(yù)處理,形成最終有效的待分析數(shù)據(jù)。首先是繼續(xù)數(shù)據(jù)格式化,利用數(shù)據(jù)格式化實(shí)現(xiàn)對各種網(wǎng)頁格式的數(shù)據(jù)進(jìn)行模式化解析,形成系統(tǒng)統(tǒng)一的數(shù)據(jù)格式;然后進(jìn)行數(shù)據(jù)清洗把“臟”的“洗掉”。該處理步驟主要把不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)等不規(guī)范的數(shù)據(jù)進(jìn)行清洗,去除無效的、重復(fù)的數(shù)據(jù),形成數(shù)量足夠的、時間段連續(xù)的、內(nèi)容圍繞主題的數(shù)據(jù),為下一步的深度挖掘做準(zhǔn)備。

5.2.2 實(shí)現(xiàn)對敏感輿情的報警

為了解決相關(guān)管理人員需要及時掌握敏感熱點(diǎn)或大事件的動態(tài),系統(tǒng)特增加了此處理步驟,在此將利用對敏感熱點(diǎn)或大事件的特征進(jìn)行布控,在布控策略規(guī)則中設(shè)置需要關(guān)注的熱點(diǎn)敏感關(guān)鍵字,相關(guān)組件將對存儲的內(nèi)容進(jìn)行掃描、分析。對匹配上的內(nèi)容進(jìn)行預(yù)警并產(chǎn)生預(yù)警記錄,同時支持手機(jī)和郵件的報警方式,及時把相關(guān)信息發(fā)送給預(yù)設(shè)的人員。該模塊包括關(guān)鍵字匹配組件、報警處理組件。

5.2.3 數(shù)據(jù)的深度挖掘分析處理

經(jīng)過預(yù)處理的數(shù)據(jù)還只是數(shù)據(jù),并沒有形成有用的信息,所以引入數(shù)據(jù)挖掘分析處理步驟,以便對數(shù)據(jù)利用前面介紹的輿情行為模式分析、內(nèi)容分析等挖掘技術(shù)進(jìn)行深度挖掘及分析,形成系統(tǒng)的核心信息數(shù)據(jù),為數(shù)據(jù)展現(xiàn)提供數(shù)據(jù)來源。

為了對數(shù)據(jù)進(jìn)行挖掘,系統(tǒng)內(nèi)置的多種數(shù)據(jù)挖掘算法,實(shí)現(xiàn)自動對信息進(jìn)行分類、總結(jié)。具體內(nèi)容如下:

針對中文信息的處理與分析,系統(tǒng)中的自動分詞組件采用詞典和規(guī)則為基礎(chǔ),綜合利用了基于概率分析的語言模型方法,使分詞的準(zhǔn)確性達(dá)到99%以上。在語義分析的基礎(chǔ)上,綜合考慮詞頻、詞性、位置信息,實(shí)現(xiàn)準(zhǔn)確的自動關(guān)鍵詞與自動摘要。利用網(wǎng)絡(luò)輿情模式識別技術(shù)可以自動發(fā)現(xiàn)新的網(wǎng)絡(luò)輿情模式,便于用戶盡早布防。

為解決自動分類的難題,系統(tǒng)內(nèi)置自動分類組件通過對訓(xùn)練庫的學(xué)習(xí),獲取每個分類的屬性特征模型,然后使用這一分類體系對未知分類情況的數(shù)據(jù)進(jìn)行分類。聚類組件將結(jié)構(gòu)化的數(shù)據(jù)集合中的數(shù)據(jù)根據(jù)需要統(tǒng)計的主題劃分不同的子集,自動學(xué)習(xí)形成新的分類,滿足自動擴(kuò)展分類的需要。

面對收集的海量數(shù)據(jù),如何獲取用戶所需的信息這個是一個關(guān)鍵問題,系統(tǒng)通過關(guān)聯(lián)分析、趨勢分析,從海量數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則。同時,利用趨勢分析技術(shù),分析網(wǎng)絡(luò)輿論等隨時間的發(fā)展趨勢情況,以便實(shí)現(xiàn)對輿論環(huán)境的監(jiān)測與不良傾向的預(yù)警。

做到上面的內(nèi)容還只是實(shí)現(xiàn)了系統(tǒng)的一部分,系統(tǒng)另外提供對新的知識的自動發(fā)現(xiàn)。利用自動分類與聚類等技術(shù)基礎(chǔ),對知識進(jìn)行挖掘并匯總分析,能實(shí)現(xiàn)對新的網(wǎng)絡(luò)輿情的發(fā)現(xiàn)及獲取發(fā)展趨勢。同時把結(jié)果合并到系統(tǒng)已有的知識庫,達(dá)到不斷擴(kuò)展知識庫的要求。

有時候用戶會要對特定的事件或輿情進(jìn)行跟蹤,為了解決此問題,通過系統(tǒng)提供的對象跟蹤組件,利用用戶在系統(tǒng)中設(shè)置的需要特別跟蹤的對象的特征,在分析過程中對涉及該對象的數(shù)據(jù)進(jìn)行特別分析和處理,形成該對象的信息鏈存儲到數(shù)據(jù)庫中,在數(shù)據(jù)展現(xiàn)時可以通過圖表等方式展現(xiàn)對象跟蹤鏈的相關(guān)信息。

5.3 海量數(shù)據(jù)的存儲

網(wǎng)絡(luò)輿情數(shù)據(jù)量是海量的,如何提高查詢的反饋速度是另外一個重要的問題,系統(tǒng)通過建立全文索引技術(shù),對存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)建立合理的索引,使數(shù)據(jù)查詢輸出時提高輸出速度及準(zhǔn)確性,特別是針對重要的關(guān)鍵字進(jìn)行檢索時能大大的提高查詢速度。

除了全文索引,數(shù)據(jù)管理系統(tǒng)的選擇是另外一個重點(diǎn)。考察目前已經(jīng)成熟的數(shù)據(jù)庫管理系統(tǒng),發(fā)現(xiàn)Oracle是最合適的。所以本系統(tǒng)就采用Oracle作為數(shù)據(jù)存儲的數(shù)據(jù)庫系統(tǒng),同時可以利用其提供的多維查詢技術(shù),實(shí)現(xiàn)Olap的查詢要求。

5.4 數(shù)據(jù)快速,準(zhǔn)確的展現(xiàn)

有了海量的、有用的信息,如何把這些數(shù)據(jù)展現(xiàn)給用戶?在本系統(tǒng)主要考慮對關(guān)鍵字的查詢輸出、輿情新關(guān)鍵字挖掘查詢、輿情報告的輸出、報警信息的查詢、各種統(tǒng)計報表的輸出。

對于輸出的技術(shù)要求,在數(shù)據(jù)輸出時系統(tǒng)利用Oracle系統(tǒng)的Olap技術(shù)結(jié)合系統(tǒng)提供的查詢頁面框架,可以實(shí)現(xiàn)用戶從多個角度對各類數(shù)據(jù)的查詢,在頁面處理上目前市面上已經(jīng)有相關(guān)的成熟的技術(shù)可以作為參考,相信不會有技術(shù)難點(diǎn)。

針對輸出的內(nèi)容,系統(tǒng)內(nèi)置了部分統(tǒng)計報表,這些報表是基于網(wǎng)絡(luò)輿情分析專家在輿情檢測與分析方面的專業(yè)知識進(jìn)行設(shè)計,能滿足大多數(shù)用戶的需要。為了滿足個性化的查詢輸出,同時系統(tǒng)支持用戶自定義適合自己的統(tǒng)計報表。

5.5 通過系統(tǒng)管理功能保證系統(tǒng)正常運(yùn)行

為了滿足個性化的管理要求,系統(tǒng)提供系統(tǒng)設(shè)置、角色管理、用戶管理、數(shù)據(jù)備份等功能,支持定義常用的網(wǎng)頁結(jié)構(gòu)及識別規(guī)則的定義,用于在數(shù)據(jù)獲取后的格式化分析。解決網(wǎng)頁結(jié)構(gòu)識別規(guī)則定義、報警關(guān)鍵字設(shè)置、報警記錄接收手機(jī)號或郵箱設(shè)置、系統(tǒng)管理用戶權(quán)限管理等內(nèi)容。

6 小結(jié)

該文先介紹了目前網(wǎng)絡(luò)現(xiàn)狀、同時就同類分析產(chǎn)品的不足進(jìn)行了描述。另外著重從《網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)》的兩個重點(diǎn)部分進(jìn)行描述,從最核心的技術(shù)與模塊組成來闡述系統(tǒng)是如何實(shí)現(xiàn)的。

參考文獻(xiàn):

[1] Han J,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].Morgan Kaufmann,2000.