網絡安全自查報告范文

時間:2023-03-31 23:20:22

導語:如何才能寫好一篇網絡安全自查報告,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

網絡安全自查報告

篇1

學校接到:“XX市XX區教育委員會關于轉發XX區信息網絡安全大檢查專項行動實施方案的通知”后,按文件精神立即落實相關部門進行自查,現將自查情況作如下報告:

一、充實領導機構,加強責任落實

接到文件通知后,學校立即召開行政辦公會議,進一步落實領導小組及工作組,落實分工與責任人(領導小組見附件一)。魚洞二小網絡安全大檢查專項行動由學校統一牽頭,統一指揮,學校信息中心具體負責落實實施。信息中心設立工作小組(工作小組見附件一),小組成員及各自分工落實管理、維護、檢查信及培訓,層層落實,并堅決執行“誰主管誰負責、誰運行誰負責、誰使用誰負責”的管理原則,保障我校校園網的絕對安全,給全校師生提供一個安全健康的網絡使用環境。

二、開展安全檢查,及時整改隱患

1、我校“網絡中心、功能室、微機室、教室、辦公室”等都建立了使用及安全管理規章制度,且制度都上墻張貼。

2、網絡中心的安全防護是重中之重,我們分為:物理安全、網絡入出口安全、數據安全等。物理安全主要是設施設備的防火防盜、物理損壞等;網絡入出口安全是指光纖接入防火墻->路由器->核心交換機及內網訪問出去的安全,把握好源頭;數據安全是指對校園網的數據備份、對不安全的信息進行處理上報、對信息的過渡等。信息中心有獨立的管理制度,如網絡更新登記、服務器資源、硬盤分布統計資料、安全日志等,便于發現問題,既時查找。

3、對我校幾大網站平臺的帳戶、口令等進行了一次專門的清理檢查,對弱口令進行等級加強,并及時將應用軟件更新升級,我校是電信光纖專線接入互聯網,采用思科硬件防火墻作為入口的第一道防線,然后是接入路由器,最后接入核心交換機,保證了我校網絡接入互聯網的幾道很重要的過濾。網絡中心服務器的殺毒軟件是正式版本,能定時進行升級更新,每天對系統進行補丁升級,消除可能存在的一切安全隱患,我校對外的服務器有2臺(FTP服務器、WEB服務器),FTP服務器只對外開放端口21,其余端口全部關閉;同樣WEB服務器只開放端口80,其余端口全部關閉,在方便師生使用的同時,要保障網絡的絕對安全,由于我校領導的高度重視,管理得當,我校從2019年建立校園網到現在,還沒有任何黑客攻入內網的記錄。

4、強化網絡安全管理工作,對所有接入我校核心交換機的計算機設備進行了全面安全檢查,對操作系統存在漏洞、防毒軟件配置不到位的計算機進行全面升級,確保網絡安全。

5、規范信息的采集、審核和流程,嚴格信息審核,確保所信息內容的準確性和真實性。每周定時對我校門戶網站的留言簿、二小博客上的貼子,留言進行審核,對不健康的信息進行屏蔽,對于反映情況的問題,備份好數據,及時向學校匯報。

6、本期第三周我校在教職工大會組織老師學習有關信息網絡法律法規,提高老師們合理、正確使用網絡資源的意識,養成良好的上網習慣,不做任何與有關信息網絡法律法規相違背的事。

7、嚴格禁止辦公內網電腦直接與互聯網相連,經檢查未發現在非涉密計算機上處理、存儲、傳遞涉密信息,在國際互聯網上利用電子郵件系統傳遞涉密信息,在各種論壇、聊天室、博客等、談論國家秘密信息以及利用QQ等聊天工具傳遞、談論國家秘密信息等危害網絡信息安全現象。

三、存在的問題

1、由于我校的網絡終端300多個點,管理難度大,學校沒有多余的經費來購買正版殺毒軟件,現在使用的是偽版的或者免費版本的殺毒軟件,這給我們的網絡安全帶來了一定的風險。

2、我校的服務器共有5臺,但我們沒有一套網絡管理軟件,平時全靠人工手動去管理,管理難度大,所以平時難免有忘補丁升級的時候,這難免也存在一定的安全風險。

篇2

一、強化組織領導

為深入開展網絡安全執法檢查工作,確保工作得到有效落實,2020年5月18日,交通運輸局組織全局黨員、干部職工召開“縣交通運輸局網絡安全執法檢查工作專題部署會議”,要求全局上下充分認識開展網絡安全執法檢查工作的必要性和急迫性,成立由主要負責人任組長,班子成員為副組長,各科(股)室及全局黨員、干部職工為成員的網絡安全整治專項行動領導小組,同時強化交通運輸行業領域各涉網運輸企業的監督監管,暢通舉報發現,進一步細化各部門工作措施,突出重點任務,確保工作實效。

二、成立機關網絡安全工作領導小組

縣交通運輸局網絡安全檢查工作領導小組,負責推進日常工作事務。

三、高度重視防范

網絡竊密是信息化條件下保密管理工作的重中之重。把保密工作作為一項重要工作常抓不懈明確了保密工作的領導機構和人員,成立了保密工作領導小組,制定了保密工作崗位負責制和“屬地管理”原則,做到到了保密工作機構、人員、職責、制度“四落實”

篇3

一、  辦公室工作

主要負責晨會、民情分析會會議記錄及9+X平臺錄入和公文流轉工作。截至目前處理收文22件,登記并歸檔21件;社區工作人員電腦保密檢查若干次,按要求上報保密自檢自查報告1次,網絡安全自檢自查統計表和網絡安全自檢自查報告各2次。

二、  共青團工作

組織轄區返鄉學生會和中小學生參加各類暑期活動,包括文化活動、政策宣傳、安全宣傳、法律普及、愛國教育等主題,實踐活動共8項參與人數320余人次;組織社區團員青年開展主題團日2次。

三、  司法工作

篇4

保密專項檢查自查報告范文(一)

為做好涉密文件信息資料保密管理工作,我局結合實際工作,對照檢查目錄表,逐條自查,現將自查情況報告如下:

一、保密工作落實情況

我局所收到文件,指定專人進行了妥善的處理,保證了涉密文件、記錄、信息等在傳遞、使用過程中的安全,未出現過失、泄密問題。

我局設有信息化機房,使用內外網分離的方法,同時所有電腦都配備了殺毒軟件,定期殺毒與升級,并指定專人從事計算機保密管理工作。通過自查,我局的計算機保密工作基本做到制度到位、管理到位、檢查到位。

二、主要做法

(一)高度重視,強化組織領導。我局領導剛度重視,并成立了保密領導小組,嚴格落實保密工作。領導班子成員以身作則,自覺學習、掌握保密制度,做到懂法、知法、執法,在廣大干部職工中,真正樹立起有法必依、有章必循、違法必究、令行禁止的作風。

(二)重點突出,狠抓工作落實。我局定期以主要部門和主要領導為重點檢查對象,對計算機和移動存儲介質違規外聯和特種木馬為檢點,以查促管,及時采取防范措施,堅決切斷涉密信息流向互聯網的所有渠道。

(三)宣傳教育,增強保密意識。為加強我局涉密人員保密安全意識,我局采取多種方式,多渠道相關人員進行宣傳教育,并將各類保密學習文件予以轉發至各股室,要求結合實際,認真組織學習,并抓好貫徹落實,確保計算機及其網絡安全。

(四)完善措施,嚴格制度規范。加強制度建設,是做好計算機保密管理的保障。為了構筑科學嚴密的制度防范體系,我局不斷完善各項規章制度,規范計算機及其網絡的保密管理,我局主要采取了以下幾項措施:一是計算機貫徹執行上級保密部門文件的有關項規定和要求,不斷增強依法做好計算機保密管理的能力;二是制定局各項涉密及非涉密計算機及網絡管理制度;三是嚴格涉密信息流轉的規范性,嚴格執行涉密信息不上網,上網信息不涉密的原則。

(五)督促檢查,堵塞管理漏洞。為了確保計算機及其網絡保密管理工作各項規章制度的落實,及時發現計算機保密工作中存在的泄密隱患,堵塞管理漏洞,我局十分重視對計算機及其網絡保密工作的督促檢查,采取自查與抽查相結合,常規檢查與重點檢查相結合,定期檢查與突擊檢查相結合等方式,對計算機進行防范措施的落實情況進行檢查。

在今后的工作中,我局將進一步加強對保密工作的重視,強化對涉密內容的管理,力爭保密工作取得新成績,確保保密工作的順利開展。

保密專項檢查自查報告范文(二)

根據xx密發〔XX〕2號文件的要求,我鄉高度重視,對我鄉保密工作進行了全面自查。基本情況如下:

一、健全了保密工作檢查機制

我鄉實行保密工作領導責任制。領導班子對保密工作十分重視,把它作為一項重要任務來抓,把保密工作同業務工作同計劃、同部署、同檢查、同總結。我鄉成立了由管黨副書記為組長,各科室干部為成員的保密工作領導小組,負責全鄉的保密工作,到了分管領導負責抓,經辦人員具體抓。對保密工作所需設施、設備進行了全面檢查。

二、全面開展了保密工作檢查

經我鄉保密工作領導小組研究確定,我鄉黨政辦、財政所、民政辦、計生辦是保密重點部門。具體結果還有待上級保密單位的審批。這些辦公室接觸密源廣、涉密深,保密工作領導小組對各辦公室的保密工作進行全面的檢查督促,確保各辦公室從每個環節做起,增強保密觀念。

地震后,由于形勢發展,工作需要,我鄉各辦公室配備了電腦,分別連上黨政網、金財網和互聯網。為加強計算機信息系統的保密工作,我鄉采取以下措施:一、每臺電腦系統都安裝諾盾防火墻,防止黑客、病毒入侵。二、指定專人負責全鄉的電腦管理工作,目前是xx同志負責。三、制定電腦安全操作規范,要求全站人員嚴格按規范操作,發現病毒及時處理。四、上網資料需經保密工作領導小組批準方可上傳,嚴防泄密。自檢查中,我鄉無違規上國際互聯網和公共信息網的現象;無感染木馬病毒的現象;未使用過非涉密移動存儲介質;未安裝移動網卡等無限設備。

三、加強了保密制度的建設

建立健全保密規章制度是做好新時期保密工作的重要保障。我鄉修訂完善了以下保密工作制度:(1)保密工作責任制,進一步明確各級領導干部的保密責任。 (2)建立涉密非涉密計算機保密管理制度。(3)建立涉密網絡保密管理制度。(4)建立涉密計算機維修、更換、保費保密管理制度。(5)建立在公共信息網絡上信息保密管理制度。(6)保密范圍和密級的若干規定。(7)保密審查、失泄密報告制度。

四、加強了全鄉干部保密教育

鄉黨委、政府高度重視保密教育工作,采取多種方式,利用各種機會對全鄉干部職工進行經常性的保密教育。認真組織全鄉干部職工學習《保密法實施辦法》、《應知應會》及上級有關保密工作的會議精神、規定制度。這些活動的開展,使干部和職工增強了保密觀念,為做好我鄉的保密工作奠定了扎實的基礎。

五、存在的不足及建議

1.部分辦公室存在對電腦使用不熟練的現象,需要加強干部職工電腦安全使用的培訓;

2.各級內部資料的密級確定存在一定問題,由于定密等級和范圍分寸較難掌握,使得在工作中難以明確要求和規范。

3. 做好保密工作還需要堅強的物質基礎作保證,除了必要的資金、設備投入外,還應加強對保密工作人員的業務培訓,提高保密干部的素質。

根據xx密辦文件的通知要求,我們對照通知所附大檢查目錄進行了認真地自查,現將自查情況綜述如下:

保密工作歷來是黨和國家的一項重要工作。多年以來,我們堅持積極探索和建立適應新形勢要求的保密工作新機制,不斷加大保密宣傳教育、監督管理和技術防范力度,健全各項管理制度和工作責任制,加強對涉密人員的管理,努力提高保密工作法制化、規范化和技術手段現代化的水平,保密工作取得了明顯成效,為維護改革、發展、穩定大局,促進全鎮經濟社會快速發展發揮了應有的作用。

保密專項檢查自查報告范文(三)

20XX年以來,在XXXX的正確領導下,我X嚴格按照《保密法》的規定,認真貫徹落實保密工作的要求,積極深入抓好保密工作的落實,從而使我鎮的保密工作取得了明顯的成效。現將自查情況報告如下:

一、保密工作組織機構的基本情況

我X歷來高度重視保密工作,把它做為一項重要任務來抓,設有保密工作領導小組,組長由XX書記、XXX擔任,黨委副書記XXX為副組長,成員由黨政班子成員和保密工作負責人組成。領導小組下設辦公室,由黨政辦主任兼任辦公室主任,同時確定2名同志主要負責保密方面的具體工作。對保密工作所需設施、設備和經費,鎮領導班子都能夠給以重視和支持,保證了日常工作順利開展。

二、保密工作開展情況

(一)提高認識、加強宣傳

我X黨委、政府高度重視保密宣傳教育工作,積極組織全體干部職工通過電視、報刊、會議等多種途徑了解保密工作的重要性,并積極組織干部學習《保密法》,進一步提高全體干部職工對保密工作的認識,讓全體干部職工更加清醒地認識到和平建設時期保密工作的重要性,為做好我鎮的保密工作奠定了扎實的群眾基礎。

(二)健全制度、落實責任

我鎮黨委、政府高度重視保密工作,成立了保密工作領導小組,建立健全了保密規章制度。近年來,我鎮先后建立健全了《黨政辦保密制度》、《檔案室保密管理制度》等保密工作規章制度,做到以制度管人、按程序辦事,確保保密工作順利開展。對在保密工作中出現的失泄密事件,按《保密法》規定追究相關責任人責任。

(三)多措并舉、強化督查

我鎮黨政辦、檔案室等部門是保密重點部門。保密工作領導小組對這些部門的保密工作進行不定期的檢查督促,防止失密、泄密。對辦公室工作人員進行定期保密工作培訓,鎮黨政辦對于秘密文件、內部資料的傳遞、回收、注銷都嚴格按照上級有關要求辦理,形成了一整套制度、規定,管理渠道暢通。加強黨政辦等辦公計算機的管理工作,加強對計算機上網檢查工作,對上網計算機進行登記造冊,摸清了鎮政府內上網計算機的總體情況,在管理上做到心中有數;對于涉密的計算機、移動硬盤等明確要求要實行物理隔離,嚴禁上國際互聯網,制定電腦安全操作規范,要求全站人員嚴格按規范操作,發現病毒及時報告,由專人處理;更重要的是加強了全鎮干部、職工對計算機信息的管理,進一步增強了保密意識。

三、存在問題及改進建議

20XX年全鎮系統保密管理工作基本是好的,沒有發現涉密文件資料流失等事件。存在的主要問題是:

(一)保密工作的宣傳教育力度不夠。近兩年開展保密工作的實踐使我們認識到,加強鎮機關干部的保密教育,提高每一個公民的保密意識十分重要。需要不斷加強宣傳力度,增強人們的保密意識,提高做好保密工作的主動性和自覺性,還要制定出相應的規章制度,使事前行為得到規范,堵塞可能發生的失、泄密事件,消除隱患,以確保國家安全。

(二)保密工作人員業務培訓不夠。做好保密工作還需要堅強的物質基礎作保證,除了必要的資金、設備投入外,還應加強對保密工作人員的業務培訓,提高保密干部的素質。

篇5

縣經科局:

根據你局《通知》(鎮經科通〔2011〕9號)和《昭通市工業和信息委員會關于報送2011年度下半年政府信息系統安全檢查自查報告和開展抽查工作的通知》(昭工信信推〔2011〕279號)文件精神。我局對信息系統安全情況進行了自查,現將自查情況匯報如下:

一、信息安全總體情況

2011年我局信息系統安全工作與2010年相比,有了一些改進。在安全管理、落實解決方案方面加大了力度,確保在系統升級項目完成之前,現有的系統能夠保持良好的運行狀態。

二、2011年信息安全主要工作情況

(一)信息安全組織管理

1、成立了安全小組。明確了信息安全的主管領導和具體負責的管護人員,安全小組為管理機構。(1)制定了2011年信息安全工作方案。隨著系統升級項目的進行,接處警系統信息的安全是重點考慮的問題之一。(2)進一步制定和完善了信息安全方面的制度。(3)不定期進行安全檢查工作。

2、有指定的信息安全員,負責維護本單位網絡安全,指導協調相關工作。

(二)日常信息安全管理

1、人員管理情況。(1)重要崗位指定保密員并簽訂了保密協議;各信息專員對重要文件和信息資源要做到及時備份。(2)人員離崗離職需要通過各部門審核,持有單位信息、帳戶密碼的,需交接清楚,單位配備的專用存儲設備必須回收,人員離職后,信息安全員必須修改相關計算機設備的帳戶、密碼。(3)外部人員訪問機房必須登記,由相關部門人員監督,帶出設備需要相關部門簽章。(4)違反制度規定造成信息安全事件的,視情節輕重予以相應處罰。

2、資產管理情況。(1)每個部門指定一個資產管理人員,單位設定固定資產管理員。(2)計算機及相關設備送修需報固定資產管理員,報廢銷毀需要做好登記。

3、各辦公用計算機均已安裝殺毒軟件,嚴禁使用不可靠、不知名的辦公軟件。涉密計算機專人專用,用戶名和密碼專人持有。

4、今年年初相關股室已將信息安全經費納入年度預算。

(三)信息安全防護管理

1、每個部門設置不同的網段。相關科室定期檢查服務器運行情況,防病毒是否正常,及時排查防火墻等防護設備的故障。

2、門戶網站的信息嚴格按照審核程序執行,防止敏感信息泄露,上傳工作由局辦公室專門負責。電子郵箱由專人管理,定期更新用戶口令。

3、涉密和非涉密計算機物理隔離,分類明確。專用移動存儲設備需登記,使用前必須先進行殺毒檢查,存儲設備報廢需使用有效的工具進行銷毀。

(四)信息安全應急管理

1、制定了應急響應預案。當網絡、設備在運行中發生重大故障時,須報告相關領導。發現可疑攻擊,及時追查其網絡地址,并阻斷。一旦發現有計算機中病毒,及時將其斷網,并殺毒。

2、根據需要設置了備份服務器,以應對突發事件。

(五)信息安全檢查工作

1、上一年度存在的問題主要是接處警數據拷貝安全性,今年配置了兩臺計算機終端專門用于處警日常查詢數據和拷貝文件,避免接處警計算機使用外部存儲設備。

2、部分在用設備為我局建設初期購置,存在設備陳舊、故障率高的問題,應加大對設備進行維護、保養的力度,提高防范意識。

三、檢查發現中發現的主要問題及整改情況

根據《通知》中的具體要求,在自查過程中我們也發現了一些不足,同時結合我局實際,今后要在以下幾個方面進行整改。

1、安全意識不夠。要繼續加強對機關干部的安全意識教育,提高做好安全工作的主動性和自覺性。

2、設備維護、更新及時。要加大對線路、系統等的及時維護和保養,同時,針對信息技術的飛快發展的特點,要加大更新力度。

3、安全工作的水平還有待提高。對信息安全的管護還處于初級水平,提高安全工作的現代化水平,有利于我們進一步加強對計算機信息系統安全的防范和保密工作。

4、工作機制有待完善。創新安全工作機制,是信息工作新形勢的必然要求,這有利于提高機關網絡信息工作的運行效率,有利于辦公秩序的進一步規范。

四、對信息安全工作的意見和建議

信息系統安全教育培訓有待重視。由于我局不具備很專業的信息系統安全工作人員,對信息系統安全工作一知半解,希望相關部門能加強這方面的業務培訓工作。

 

 

 

篇6

一、提高認識,加強領導

全市各級勞動保障部門要高度重視信息系統的安全管理工作,強化數據安全意識,加強對信息系統安全工作的領導。認真貫徹落實國家在信息安全方面的法律、法規和政策規定,加強業務數據的科學管理,采用安全技術,應用安全產品,建立完備的網絡管理、數據維護、數據備份等工作機制;按照“誰主管、誰負責,預防為主、綜合治理,制度防范與技術防范相結合”的原則,逐級建立信息系統安全管理領導問責制和崗位責任制。

二、建立制度,責任到人

各單位要有專人負責本單位信息系統的安全工作,根據本單位的具體情況建立健全信息系統安全管理制度,包括:人員管理、密碼口令、機房安全、設備安全、系統運行、網絡通信、數據管理、緊急情況處理流程等,明確責任,將安全管理工作落實到人。要定期檢查制度執行情況,加強監督并不斷完善規范。

三、堵塞漏洞,全面防范

(一)加強應用系統安全。加強對計算機管理人員和操作人員管理,根據其工作職責的不同,設置使用權限。通過對用戶身份認證管理,保證用戶的合法性。

信息系統必須有全面、規范、嚴格的用戶管理策略。重要的信息系統必須有雙人互備做為系統管理員,系統管理員必須對信息系統中各類設備加設口令,嚴禁采用系統默認超級管理員用戶名或口令;由系統管理員對操作人員賬號實行集中管理,對操作人員按職責分組管理,設定用戶訪問權限,嚴禁跨崗位越權操作;對信息系統的用戶身份、主機身份、事件類型等應進行安全審計,并留存審計日志和妥善保存。

信息系統必須使用正版軟件,并及時進行系統升級或更新補丁;信息系統必須裝有防毒殺毒軟件,并定期進行病毒檢驗;與互聯網相聯的信息系統要有防止非法入侵措施。

(二)加強數據安全管理。通過系統權限、數據權限、角色權限的管理,建立數據庫系統的權限管理機制。通過安全審計記錄,跟蹤用戶對數據庫的操作。根據信息的重要程度和安全要求,采取不同層次的數據備份制度。對通過網絡傳輸的重要信息,應進行數據加密處理。

全市各類信息系統的業務數據要有完整可靠的備份機制和策略,我市金保工程實施前,要求各單位務必于2008年12月底前將業務數據在市勞動和社會保障數據管理中心進行實時備份。各責任單位要具有在規定時間內恢復系統功能和業務數據的能力,對各類信息系統及設備要有應急處理預案,市局信息化工作領導小組要對應急預案進行備案登記,并不定期進行數據安全應急演習。

系統管理人員調離工作崗位時,必須移交全部技術資料和有關數據,設有口令密鑰的要及時進行更換,并確認對業務不會造成危害后方可調離。

操作人員應嚴格遵守軟件的操作規范,離開操作崗位時,必須退出應用軟件操作界面或鎖定計算機,以防他人進行未經授權的操作。操作人員應注意自己用戶名和口令的保密,并定期或不定期修改口令,避免出現他人借用或盜用本人帳號引起不良后果。

(三)加強網絡平臺安全。全市統一的勞動保障市域網絡平臺已構建了一套安全、高效的網絡管理體系,對聯入網絡的所有機器設備實行準入機制,并進行統一管理和集中的病毒防護。對于目前未納入統一管理,分散在各級業務經辦機構獨立運行的局域網要配備有效的防病毒軟件,防止網絡環境的病毒感染和泛濫。凡在業務內網運行,用于處理業務的計算機要與外網實行物理隔離,一律不得連接公共互聯網。建立網絡安全掃描和網絡實時監控預警系統,對網絡攻擊進行檢測和告警,及時發現網絡系統安全漏洞,防止非法攻擊對網絡平臺的損害。

(四)加強機房和設備安全。機房建設要符合有關國家標準,注意防雷、防泄漏、防火、防盜。存儲信息的備份介質要防塵、防潮、防霉變,保障系統的設備和數據的安全。

服務器或存儲設備發生故障時,要盡量現場維修,系統管理員要在現場監督;確需要送出維修時,須卸除存儲部件或刪除業務數據,防止數據泄露。

(五)加強數據保護工作。各單位要嚴格執行國家信息安全和保密工作的有關規定,保護企業商業秘密和勞動者個人隱私,避免數據通過網絡等渠道擴散。要重點做好業務數據庫的保護工作,不得隨意對數據庫進行操作,確因工作需要,必須具備完善的技術方案和安全保障措施,避免給業務經辦帶來重大損失。

四、加強監管,定期考核

全市各類勞動保障信息系統責任管理單位應定期向*市勞動和社會保障局信息化工作領導小組上報信息網絡安全自查報告,市局信息化工作領導小組將不定期組織專業技術人員對存在安全隱患的各類信息系統進行綜合安全評估、檢查指導,協助提出整改方案,限期整改。因不及時整改而發生重大案件和事故的,追查相關人員責任;對違反國家相關法律法規的,由公安機關依法進行處罰,構成犯罪的,由司法機關依法追究刑事責任。

五、強化培訓,提高素質

篇7

【關鍵詞】 IP化網絡文本 文本分類 文本聚類 組織框架

一、引言

隨著移動運營商網絡IP化改造日益深入,運營商內部積累了大量跟IP化網絡相關的文本,而如果移動IP化網絡文本無法快速、準確地進行分類,將會直接造成網絡維護工作無章可循,進而影響到網絡的安全性。現有處理移動IP化網絡文本的方法一般是采用人工分類歸檔的方式,這種手工的方法有很多不盡如人意的地方,因此,迫切需要人們研究出相關工具以對大規模的文本信息進行有效的過濾并進行自動分類組織。

本文在基于文本分類[1] [3]、聚類算法的基礎上實現了一種建立移動IP化網絡文本組織框架的方法,提出了一套完備且可完善的文本組織框架:采用人工聚類與機器聚類相結合的方式得到了一套科學合理的文本組織方法;采用重復分類訓練學習過程及定期重復框架聚類過程的方式實現了該套文本組織框架的動態完善;將移動IP化網絡文本進行系統化管理,網管人員可隨時根據需要從文本庫中搜索和查詢所需要的文本,獲取相關知識。對文本分類聚類模型進行測試,結果顯示,多聚類算法得出的第二文本框架與專家分類框架具有很大區分特征[8-11],文本分類的正確率達到了70%以上,基于內容的索引搜索效率很高,提高了文本管理人員查找文本的效率。系統的部署與應用,改變了中國移動在開展IP化過程中缺乏智能化分析系統的現狀,提高了網絡維護的針對性、主動性和前瞻性。

二、文本分類聚類技術模型設計

2.1 現有文本處理方式存在的問題

現有處理移動IP化網絡文本的方法一般是采用人工分類歸檔的方式,網管人員通過查看一定數量的移動IP化網絡文本的全部內容、摘要或關鍵字根據個人的工作經驗、理解預先建立移動IP化網絡文本組織框架,然后根據建立的移動IP化網絡文本組織框架以及新的移動IP化網絡文本中包含的相關內容,對該新文本進行手工分類歸檔,并通過不定期的檢查和整理的方式維護分類歸檔的移動IP化網絡文本。當需要查詢IP化網絡相關文本時,輸入相關搜索特征詞,系統從移動IP化網絡文本組織框架的相應分類中查詢特征詞對應的文本,并輸出給查詢人員。

有上述可見,現有移動IP化網絡文本(以下簡稱為文本)處理方式存在以下缺點:(1)文本組織框架缺乏科學性及一致性。現有的文本處理方式屬于粗放式的文檔管理方式,文本組織框架以及文檔的整理分類完全取決于網管人員的專業知識水平、業務能力及工作態度,分類的方式受個人主觀因素影響較大,不同的人有不同的看法,在這樣的方式下,很難保證各個網管人員構建的文本組織框架采用統一客觀的分類標準,缺乏科學合理性。(2)效率較低,準確率不能保證。人工歸檔的方式需要消耗較多的時間,尤其在文本數量較大的情況下,不能實現較高的處理效率;并且這種人工歸檔的分類方式還會受到一些個人因素的影響,如專業知識水平、人為判斷的失誤等的影響,使得分類準確率不高[2]。(3)不利于網管人員的檢索、利用現有文本知識。采用現有的處理方式處理移動IP化網絡文本,即網管人員按照自身已經建立的文本組織框架以及閱讀文本后的理解來對文本分類,使得不同專業人員的分類方式存在偏差。由于未能采用統一客觀的分類標準,從而使得相應的網管人員對該文本的搜索、查詢與利用變得十分困難,致使文本知識的利用率低下,而且,檢索得到的文本出現重復,也增加了檢索所需的時間,浪費了系統資源。

2.2 文本分類聚類模型的設計思路

該模型的主要理論基礎是文件聚類和文本分類算法,前者的基礎是先把文本進行分詞[4]和向量化表示[5] [6],即預處理過程,之后根據一定的聚類算法把具有相似性質的文本歸為一類,以此為基礎可形成文本組織框架;分類的過程則是在已有文本框架的基礎上進行數據的訓練過程,形成一定的分類器模型,當有新文本進來時可以自動根據文本內容進行文本分類。具體過程如圖1所示。

為了改變目前IP化網絡文本管理過程中的不足,本文在對文本挖掘進行較為廣泛的探索與研究的基礎上,結合人工分類及基于統計方法的文本聚類與文本分類方法,設計了一種面向IP化網絡文本挖掘算法模型。該模型充分利用了IP化網絡中專業術語較多的特點,通過總結歸納這些術語,形成分詞庫,抽取文本的特征詞[8-11],計算文本特征向量[8-11],實現文本聚類及文本分類算法的應用。

2.3 文本分類聚類模型

對文本數據的建模和處理思路如圖2所示。

(1)模型數據源

IP承載網建設與維護相關OA文、維護管理辦法、建設文檔等。核心網VOIP改造相關OA文、維護管理辦法、建設文檔等。

(2)模型大致流程

首先為保證所形成的文本組織框架的質量,需要選擇精度高、適應性強的聚類算法作為聚類工具,在流程的開始階段需要進行小樣本的數據實驗,對K-means[7]、模糊C、蟻群以及層次聚類算法所形成的文本框架進行比較,并結合人工分類框架進行評估,最后選出蟻群算法這種最適合IP化網絡安全文本的聚類算法作為后續流程的主要聚類算法。

在選出最優的聚類算法之后開始使用該算法對全部的文本集進行聚類,形成初步的文本組織框架;該框架作為分類的先驗知識進行分類的訓練形成分類器,訓練方法有很多,本文采用了支撐向量機(SVM [6])和KNN[7]兩種方法進行訓練,通過比較發現前者較優。

分類器形成之后,當有新的文本進來時,分類器會自動根據文本內容對其進行分類,并將文本歸入相應的文件夾下。每周一段時間可以結合專家知識對誤判率進行計算和評估,如果誤判率高于臨界值,就說明原來的文本框架已經不再適用于新的文本集,需要對現有的全部文本集進行重新聚類形成新的文本分類框架,這樣就實現了文本組織框架的更新和完善過程。基于所形成的文本框架,網絡安全維護人員可以進行方便快捷的檢索和學習。

(3)模型預期效果

①可優選一種與人工分類結果較為接近的文本聚類算法,可實現大數據量文本的準確聚類;②可對新增文本進行較為準確的分類,減輕網管人員進行文本管理的壓力;③可實現對文本的多為搜索,幫忙網管人員更為精確地找到所需要的文本。

三、文本分類聚類技術模型的實現

3.1 文本分類聚類技術模型實現概述

所述的數據輸入模塊用于采集IP化網絡安全文本數據;所述的數據分析模型用于接收數據輸入模塊傳遞來的數據,并且對接收到的數據進行挖掘分析,形成四個數據分析子模塊;所述的分析結果輸出模塊用于把數據分析模塊分析的結果結合輸出要求呈現給輸出端;在模型中,所述的移動IP化網絡文本數據包括設備指標文本、IP承載網文本、交換設備文本、全網業務文本及安全管理與網管支撐文本;所述的數據分析模塊中的四個數據分析子模塊分別是:專家處理子模塊、多聚類算法子模塊、文本分類及文本框架完善子模塊和文本組織框架合成模塊。具體如圖3所示。

本文同時提供上述文本數據分析模型的實現方法,具體步驟如圖4所示。

下面結合實例給予說明:

1.數據輸入步驟:通過數據輸入模塊導入IP化網絡文本數據,IP化網絡文本數據包括集團公司、省公司、地市公司的很多發文、管理辦法和不同地方網絡維護案例文本及不同部門交流文本數據。

2. 數據分析步驟:

A.專家處理子模塊步驟:本文的方法以IP化網絡文本數據為基礎,先通過專家處理子模塊讓專家對現有小樣本的文本數據進行整理,得出IP化網絡文本數據的分類框架。比如框架第一層氛圍分為指標類材料、IP承載網類材料、交換設備類材料、全網業務材料、安全管理與網管支撐材料五大類,每一大類都又分為不同子類。如表1所示。

B.多聚類算法處理子模塊:通過聚類算法子模塊采用不同的聚類算法對小樣本的IP化網絡文本數據進行分析,得出不同的分類結果;比如通過k-means聚類算法、模糊c均值聚類算法、蟻群聚類算法、層次聚類算法等不同聚類方法進行聚類計算,并輸出聚類結果。通過對小數據樣本聚類得出的結果作為評價來選出適合IP化網絡文本的聚類算法,當遇到大的數據樣本時,應用已經選出的聚類算法進行挖掘。比如小樣本中蟻群聚類算法結果最為貼近專家分類結果,后面的聚類方法就都采用蟻群聚類算法來進行挖掘。

C.文本組織框架合成模塊:把聚類算法子模塊輸出的分類結果和專家分類結果比對,采用專家分類結果作為文本數據分類的框架,將小樣本的專家分類結果作為指導,將和專家分類結果最相近的聚類算法的聚類結果填入專家分類結果中,實現全部文本數據的合理分類。

D.文本分類及文本框架完善子模塊:新的文本進來,文本分類及文本框架完善模塊會依據現有合理的文本組織通過文本分類算法對新進入的文本進行分類,專家判斷錯誤率到達了多少,如果錯誤率高于閾值,就會記錄為誤判,把所有的數據用在階段最優的算法重新進行聚類計算,然后通過文本組織框架合成模塊合成新的文本組織框架;具體的邏輯框架圖如圖5所示。

3.分析結果輸出步驟:在數據分析結果輸出模塊,用戶可以根據自己的需求通過樹形框架結構找到自己想要的文本,也可以通過關鍵詞搜索,得到最相關的搜索結果。大大提高對公司現有文本資源的利用效率。

3.2 文本分類聚類技術模型的具體實現

本模型是一種建立移動IP化網絡文本組織框架的方法。該方法根據預先設定的樣本量建立第一文本組織框架,應用多聚類算法對所述預先設定的樣本量進行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法建立的第二文本組織框架,根據所述第一文本組織框架和所述第二文本組織框架建立文本組織框架。本模型在實現過程中具體流程如圖6所示。

步驟1:根據預先設定的樣本量建立第一文本組織框架。本步驟中,預先設定的樣本量為一定數量的IP化網絡文本,本實驗中,預先設定的樣本量為小樣本量,IP化網絡領域內的專業技術人員根據已有的專業技術框架、自身的工作過程中積累的經驗及對文本的理解來實現IP化網絡文本組織框架的制定,比如,根據各文本的文本特征向量[8-11],建立五大類的IP化網絡文本組織框架,即文本組織框架包括:指標類材料、IP承載網類材料、交換設備類材料、全網業務材料及安全管理與網管支撐材料,并計算每類對應的分類文本特征向量[8-11]。當然,實際應用中,也可以根據實際的需要,按照文本特征向量[8-11]構造其他類型的IP化網絡文本組織框架,比如,將IP化網絡文本按照集團公司、省公司、地市公司的發文、管理辦法、不同地方網絡維護案例文本及不同部門交流文本數據進行劃分,構造相應類別的IP化網絡文本組織框架。

在模型實現過程中,對于IP化網絡文本組織框架下的每個大類,又可以分為不同的子類并設置每個子類對應的子分類文本特征向量[8-11],比如,將IP化承載網類材料分為五大子類,分別為:設備建設方案、日常維護管理辦法、安全評估與巡檢、省際IP承載網相關文件、網絡改造與調整;交換設備類材料分為工程建設方案及管理辦法、專項提升活動等子類;全網業務材料分為網絡運行維護實施、應急處理與重大故障等子類;安全管理與網管支撐材料分為賬號與口令安全管理辦法、其他安全管理辦法及文件等子類。請參見表2所示的IP化網絡文本組織框架示例。

本步驟中,由于專業技術人員具有良好的專業技術水平及豐富的經驗,對文本的理解較為全面、準確,使得對文本進行分類的準確性高,描述各個分類的文本特征向量[8-11]恰當、準確性高。從而使得建立的文本組織框架科學性強、可信度高,可作為優選聚類算法的主要依據;同時,由于預先設定的樣本數量不會太多,分類、歸檔所需的時間較少,屬于在人工可處理的范圍內。

步驟2:應用多聚類算法對預先設定的樣本量進行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法作為優選聚類算法。

該優選聚類算法將在第一文本組織框架已無法進行準確分類的情況下,啟動計算,得出第二文本組織框架,用于文本分類。

本步驟中,多聚類算法(文本挖掘算法)包括:k-means[7]聚類算法(k-means Clustering Algorithm)、模糊c均值聚類算法(Fuzzy C-means Clustering Algorithm)、蟻群聚類算法(Ant Colony Optimization Algorithm)、層次聚類算法(Hierarchical Clustering Algorithm)等。各算法及對文本的聚類流程屬于現有技術,其詳細描述請參見相關技術文獻,在此不再累贅。

實際應用中,由于不同的聚類算法對相同數量的樣本進行聚類時,其聚類結果可能存在較大的差別,且各聚類算法的聚類結果真實可靠性也無從評估,因而,采用不同的聚類算法將對聚類結果產生實質性的影響。本示例中,通過選用不同的聚類算法對預先設定的相同數量的樣本進行聚類,對聚類結果(文本組織框架)與第一步中建立的IP化網絡文本組織框架進行比較,選取與人工分類結果的相近程度最好的聚類算法結果對應的聚類算法,作為優選聚類算法。

步驟3:以第一為文本組織框架作為文本分類依據。本步驟中,在得到第一文本組織框架及優選的聚類算法的基礎。

步驟4:根據所述文本組織框架,對新文本進行分類。本步驟中,導入IP化網絡文本數據后,按照每個樣本包含的內容,抽取文本中的關鍵詞,構造各文本的文本特征向量[8-11],以文本組織框架為依據,將新文本的文本特征值與文本組織框架中各類包含的文本特征值進行匹配,將該新文本分類至文本組織框架中相應的類別中。

被分類的樣本經過預處理,抽取文本中的特征詞[8-11],獲取各文本的文本特征向量,與文本組織框架中各子類包含的文本特征向量進行匹配,將各文本分類到文本組織框架中相應的子類;于此同時,抽取新增的部分文本進行人工分類,比較人工分類與自動分類的誤差,當誤差超過閾值時,啟動已選出的優選聚類算法建立的第二文本組織將文本分類,比如,上述示例第二步中,假設蟻群聚類算法對預先設定的樣本的算法結果(第二文本組織框架)最為貼近建立的第一文本框架。當誤差超過閾值時,重新啟動蟻群聚類算法計算第二文本組織框架。

本模型實現過程中,還可以利用文本分類結果,對所建立的文本組織框架進行調整,參見步驟5。

步驟5:從新的文本中,選取一定數量的文本,根據第一文本組織框架進行人工分類;本步驟中,選取的這一定數量的文本,在步驟4中已進行了自動分類,將自動分類結果與人工分類結果進行比較。

步驟6:將自動分類結果與人工分類結果進行比較,如果自動分類結果誤差大于預先設定的閾值,啟動優選聚類算法,計算新文本組織框架,作為第二文本組織框架,代替第一文本組織框架。本步驟中,預先設定的閾值可以是自動分類結果與人工分類結果中包含的相異的文本個數與人工分類結果包含的文本個數之比。如果沒有超出該閾值,表明當前建立的文本組織框架運行良好,可靠性高;如果超出該閾值,需要按照人工分類結果調整文本組織框架中各大類相應子類對應的文本特征向量[8-11],或者重新應用前述優選的聚類算法對所有文本(新舊文本)進行聚類,得到新的文本組織框架,用該新的文本組織框架代替原有的文本組織框架,當自動分類結果誤差大于預先設定的閾值時,重新啟動優選的聚類算法進行聚類得到新的文本組織框架。

實際應用中,上述對所建立的文本組織框架進行調整,主要是在利用第一文本組織框架對新文本分類時,由于建立的第一文本組織框架是基于有限的樣本量,因而,在大樣本量的情況下,可能存在一定的分類誤差,而且隨著樣本量的不斷增大,其誤差可能也越來越大,因而,通過人工評估,當誤差超出預先設定的閾值時,可以用前述的優選文本聚類算法結合人工評估結果重新生成文本組織框架,以替換該第一文本組織框架。

當然,在建立文本組織框架后,網管人員就可以利用該文本組織框架進行搜索和查詢,獲取所需的文本,例如,網管人員可以輸入搜索特征詞,文本組織框架查詢關鍵詞對應的文本特征值[8-11],將該文本特征值所屬的搜索結果(文本概述等信息以及文本所屬的大類及子類)輸出給網管人員,這樣,與傳統的關鍵詞的搜索方式不同,由于可根據文本特征值進行搜索,搜索情況更接近文本的內容,每個文本可供搜索的內容更多,使用文本搜索更貼近文本內容。

四、測試與分析

通過模塊層次圖和數據流圖的進一步設計,基于VC編程環境,本研究將設計的模型進一步在機器上實現,開發出IP化文本分類組織框架和基于文本內容的搜索。測試結果表明多聚類算法得出的第二文本組織框架與專家分類框架具有很大區分特征[8-11],文本分類的正確率達到了70%以上,基于內容的索引搜索效率很高,提高了文本管理人員查找文本的效率。

4.1 測試系統

對于中國運營商來說,3G的日益臨近,網絡IP化成為一種不可逆轉的趨勢。通過對現有網絡進行IP化的改造來實現多網融合最終完成3G網絡的建設已經成為國內外各大運營商的共識,IP化網絡在核心網的比重越來越大。目前,對計算機IP網絡的評估已經有一些研究成果及應用系統。但是,針對運營商中IP化網絡具體特點,建立科學、可行的安全評估模型但成了擺在中國運營商面前的一個重要的問題,同時也是在地市公司在從事具體維護工作中不得不去思考的一個問題。

目前,對于IP網絡的評估方法一般需要一些先驗知識,如威脅出現的概率、無形資產賦值等,而準備獲得這些數據是存在困難的,為此,已有的模糊、神經網絡等方法建立的安全估計模型只能對于局部系統進行評價,且多局限的理論的說明,未能有一些全面的,可行的安全評估模型及可投入使用的評估系統的產生。因此,本產品希望從移動運營商IP化網絡的運營實際出發,從技術、管理、安全意識等更加宏觀的層面來審視安全評估問題,并依托省網管已經建立的“網絡運營支撐平臺”,建立基于粗糙集的IP化網絡安全評估系統。

對于地市公司公司來說,隨著公司網絡集中化建設的進行,地市公司對IP網絡的維護權限多停留在設備的維護方面,維護行為也多以被動實施為主,往往缺乏對自身網絡安全性的科學及客觀的把握。為此,該系統所采用的模型也從地市公司IP化網絡的具體建設及維護實踐出發,采用粗糙集的理論來建立網絡的安全模型、采用粗糙集理論來分析網絡各項安全因素的輕重關系,輸出決策規則,建立IP網絡下客戶感知及網絡質量的共同提升模型,從而建立起一套科學完善的IP網絡評估算法,從而為地市公司從事IP化網絡的建設和維護提供指導,變被動為主動,全面提升IP化網絡建設與維護的有效性。

本文設計的文本挖掘模塊作為該系統中重要的一個組成部分,對于IP化安全文的深入挖掘,實現IP化網絡的安全保障起著重要的作用。對于粗糙集實現網絡安全評估方面因為不是論文的主要內容。因此不作主要描述。本文重點描述了一種面向IP化網絡文本挖掘模型在系統中的具體實現。

文本模塊從文本導入、文本框架導入、聚類方法選擇、文本聚類、文本分類、文本搜索和瀏覽等方面把模型中的主要功能分別在不同模塊中實施。其中聚類方法選擇模塊中集成了K-means聚類算法、模糊C聚類算法、分層聚類算法和蟻群聚類算法,是模塊中的核心部分。系統的模塊層次如圖7所示。

在系統的模型層次圖的基礎上,進一步設計研究了系統的數據流圖,從數據輸入層、數據預處理層、核心算法層、用戶使用層等層面圍繞文本組織框架為核心全面鋪開。找出系統輸入、處理、輸出過程中的關鍵數據存儲和邏輯處理,理清了內部邏輯的相互關系。系統的數據流圖如圖8所示。

4.2 系統相關模塊的功能說明

在系統實現過程中,主要實現了如下幾個模塊:IP化網絡安全文本數據導入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模塊,各模型具體功能如下:(1) IP化網絡安全文本數據導入模塊:用于導入IP化網絡安全文本數據,分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2) 第一文本組織框架處理模塊:用于對接收的文本進行分類整理,建立第一移動IP化網絡文本組織框架,并將建立的第一移動IP化網絡文本組織框架信息分別輸出至聚類結果匹配模塊及文本組織框架生成模塊;(3)多聚類算法模塊:用于根據預先設置的多聚類算法對接收的文本進行聚類,向聚類結果匹配模塊輸出聚類結果;(4) 聚類結果匹配模塊:用于根據接收的第一移動IP化網絡文本組織框架信息匹配來自多聚類算法模塊的聚類結果,將與第一文本組織框架最為相似的聚類算法的聚類結果信息輸出至文本組織框架生成模塊;(5) 文本組織框架生成模塊:用于根據接收的第一移動IP化網絡文本組織框架信息以及聚類結果信息建立文本組織框架。

IP化網絡安全文本數據導入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模塊等5模塊具體邏輯關系如圖9所示。

在實現過程中,該模塊可以進一步包括如下可擴展模塊:(1)文本分類模塊,用于依據文本組織框架生成模塊中存儲的文本組織框架信息,對來自IP化網絡文本數據導入模塊的文本進行自動分類。(2)文本組織框架調整模塊,用于接收來自文本分類模塊的自動分類結果、以及來自第一文本組織框架處理模塊對同批量文本的人工分類結果并進行比較,如果自動分類結果誤差大于預先設定的閾值,按照人工分類結果調整文本組織框架生成模塊存儲的文本組織框架信息。(3)搜索和查詢模塊,用于接收來自外部的搜索關鍵詞,發送至文本組織框架生成模塊,將文本組織框架生成模塊根據存儲的文本組織框架信息查詢得到的關鍵詞對應的文本信息進行輸出。

系統中各模塊相互協同共同完成模型所要求的功能,流程如下:(1)IP化網絡文本數據導入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模塊,其中,IP化網絡文本數據導入模塊,用于導入IP化網絡文本數據,分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2)第一文本組織框架處理模塊,主要有領域專家來完成,領域專家通過人工的方式來獲取接收的文本信息中包含的關鍵詞,根據關鍵詞構造各文本的文本特征向量[8-11],利用文本特征向量對所述預先設定的樣本量的IP化網絡文本進行分類整理,建立第一IP化網絡文本組織框架,并將建立的第一IP化網絡文本組織框架信息分別輸出至聚類結果匹配模塊及文本組織框架生成模塊;(3)多聚類算法處理模塊,用于根據預先設置的多聚類算法對接收的文本進行聚類,向聚類結果匹配模塊輸出聚類結果;聚類結果匹配模塊,用于根據接收的第一IP化網絡文本組織框架信息匹配來自多聚類算法模塊的聚類結果,將與第一文本組織框架最為相似的聚類算法的聚類結果信息輸出至文本組織框架生成模塊;(4)文本組織框架生成模塊,用于根據接收的第一IP化網絡文本組織框架信息以及聚類結果信息建立文本組織框架。

4.3 系統相關模塊的功能說明

通過移動公司的IP化網絡文本測試了本研究設計的功能模塊,測試結果顯示文本框架與專家分類框架具有很大區分特征,文本分類的正確率達到70%以上,基于內容的索引搜索效率很高,提高了文本管理人員查找文本的效率。

4.3.1 文本聚類測試結果分析

該部分通過文本聚類實現文本框架的形成。系統提供四種聚類方法的實現:K-means[7]、模糊C聚類、層次聚類、蟻群聚類算法;每種聚類之后,都將在下方的顯示框中展示聚類的結果,也即文本組織框架。之后通過比較不同聚類的聚類結果,選出最優的聚類算法。

K-means[7]聚類算法可以調整三個參數:聚類數目、最大迭代次數、文檔向量維數。現有文本專家聚類分為3類:IP承載網、全網業務、安全管理與網管支撐。

模糊C均值聚類算法可以調整五個參數:聚類數目、誤差限、參數m、最大迭代次數、文檔向量維數。其中參數m的調整范圍為1.5~2.5。如圖10所示。

其中K-means[7]聚類算法將文本通過迭代1000次,采用100個特征詞提取出文檔向量,分出第一類的文本數量為67,第二類的文本數量為2,第三類文本數量為1。如圖11所示。

4.3.2 文本分類測試結果分析

該部分暫時無需選擇路徑,僅采用樣本數據實現,因為專家分類文檔沒有經過聚類算法,提取不出特征值,無法作為分類;此環節耗時較長,可能需2-3分鐘,各機器性能不一可能略有差別。

本部分工作的基礎是使用上一步驟選取最優的聚類算法對所有文本進行聚類形成合理的文本組織框架并訓練形成分類器。分類器形成后,就可以對新進入的文本進行分類,一般分類正確率在70%以上。

圖12展示了對實驗數據進行分類的結果,對34個文本進行分類,分類正確率達到80%。證明該文本框架所形成的分類器具有較好的分類能力。圖中標紅的文本本分到了錯誤的類別中了,其余是被正確分類的文本;分完后可以查看通過上面的選擇查看單個文本分類情況,如圖13。

4.3.3 文本搜索測試結果分析

本部分是基于前述文本組織框架的文本搜索模塊,目前系統可供使用的檢索詞包括發文單位(集團、省公司、使公司)、文本類別(通知、申請、報告、自查報告、緊急通知等)、文件名(輸入要找的關鍵詞,系統將使用該關鍵詞在所有文本的文件名中進行檢索)、發文時間等。系統正在實現的功能是基于特征詞的檢索,在文本分詞階段每一個文本都被分成若干特征詞所表示的向量,輸入特征詞就可以實現基于內容的檢索,大大提高了檢索的效率和準確度。

其中基于內容的特征詞的搜索是一個創新,通過文本訓練,提取出所有搜索范圍內的文本的特征詞,通過特征詞的頻率來確定不同文本的區別,如100維特征詞的訓練結果就將不同文本通過挑選出來的100個文本特征詞的頻率來表示,實現文本的向量化,如果某一特征詞在文本中沒有出現,則向量這個點上的取值為0。訓練后的文本集就形成了一張二維表,一個維度是文本,一個維度是特征詞,這個二維表是基于文本內容訓練出來的,通過此二維表的特征詞來搜索文本比其他幾個維度效率更好,效果更好。

如圖14所示,搜索范圍選擇IP化安全管理系統文件夾中的clusters文件夾(因為要基于特征詞搜索需要有能提供特征詞的文件夾)。

查詢得到的文本可直接在檢索結果欄中打開閱讀。如圖15所示。