非結構化信息管理論文
時間:2022-09-18 05:49:00
導語:非結構化信息管理論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
1關鍵詞全文檢索技術日顯局促,亟待突破
世界范圍的WWW正以目前每9個月增加一倍的速度飛速發展,并還將以指數速度繼續增加。而另一方面,在從Web或數據倉庫中找到你所需要的內容卻并非進展迅速,雖然檢索到相關結果的速度正以兆兆字節甚至十倍于此的速度增加。據2004年5月NielsenNormanGroup的2004Web可用性調查結果顯示,所有用戶(包括偶爾使用或經驗豐富的用戶)對搜索結果滿意的次數百分比僅為42%,經驗豐富的用戶這一數字可以達到50%[1]。最糟糕的搜索經歷常發生在使用企業網站點搜索而不是使用巨型搜索引擎的時候。另據ForresterResearch的統計表明,非結構化信息的數量正在以每年200%的速度增長。一般員工大約要花費35%的時間尋找工作所需的非結構化信息[2]。由此可見,搜索引擎必須采取措施使自己變得更為聰明,同時能更準確全面的為大多數用戶帶來令人滿意的搜索結果。我們需要有一個工具,能同管理結構化信息一樣,有效地管理我們的非結構化信息。
2有望終結傳統搜索模式的Autonomy的“樣板工程”Blinkx英德中文版已經推出
2004年7月,位于美國舊金山的創業公司Blinkx推出了一種新型搜索工具Blinkx,該工具可以提供類似“模糊搜索”或“語義搜索”的功能。也就是說,當用戶提出類似“搜索引擎未來發展趨勢如何”這樣的搜索需求時,搜索引擎能夠給出相關內容的搜索列表,而不會像傳統搜索工具那樣只是機械的給出包含“搜索”、“引擎”、“未來”、“發展”、“趨勢”等詞匯但卻遠離該主題的文章。Blinkx不僅可以搜索文本內容,還可以搜索電影電視等多媒體內容,不僅可以搜索互聯網內容,還可以搜索本機和局域網上的內容。Blinkx同時還可以搜索不同的文本格式內容,如Text、Word、Excel、PPT、PDF以及各種數據庫中的數據格式。有媒體把這種搜索方式稱為“智能搜索”,這樣的搜索引擎一直以來都是人們的夢想,或許Autonomy就是下一代搜索引擎的開端也未可知。當然Autonomy并不只局限于桌面搜索這個狹窄的領域,它不只是代表一系列產品,也不只是一家公司的名字,最主要的是它代表著一種搜索理念和技術[3]。一旦它成功,桌面搜索的格局自然也會跟著發生翻天覆地的變化。
如果安裝了Blinkx的客戶端軟件,一個小的菜單窗口就會出現在Word、Outlook等幾乎所有文檔處理窗口的右上方。用戶在這些窗口中處理文檔時,系統會自動分析這個文檔,然后自動從本機或網絡上抓取相關文章或鏈接,以供用戶參考。它還可以及時提供與文章內容相關的新聞、產品信息、視頻內容等分類信息。簡單地說,用戶完全可以拿一篇文章來作為“查詢關鍵詞”,Blinkx通過對這篇文章進行分析,會給出與這篇文章內容最接近的網絡鏈接或本機文檔[4]。這無疑給需要處理大量數據的個人和企業提供了巨大便利。
2005年元旦剛過Blinkx進入中國市場,其中文測試版已經“竣工”。目前已經在國內某數據中心建立了一個試驗平臺,大約有30多臺服務器正在運行著Blinkx的后臺系統[5]。
Autonomy公司是Blinkx公司的股東之一,Blinkx的核心技術也來自Autonomy,因為這種密切關系,Blinkx被認為是Autonomy的“樣板工程”。此前,Autonomy一直像汽車發動機一樣隱藏在幕后。Autonomy雖然在公眾中的知名度不太大,但在商業應用領域中卻名聲顯赫,并在政府、國防、新聞、金融、電信、教育等領域擁有大量中堅客戶。而且,Autonomy還是一個“歷史悠久”的IT公司,同時在美國和英國上市,擁有超過1.47億美元的現金。
3Autonomy的模式識別技術,可以幫助用戶發現一些事前不知道的相關信息
目前,人類研究的信息搜索技術有四個方向:關鍵字搜索,模式識別,語義分析,神經網絡。除了關鍵詞搜索比較成熟外,其他三項技術還處于待開發狀態。模式識別的代表者就是Autonomy,語義分析和神經網絡兩個技術方向目前尚無壓倒性的代表者,一年半載不會有突破性的研究成果。所以,模式識別就成了目前比較先進的信息搜索技術。
采用“模式識別”搜索方法,可通過判別相關識別度的高低來對數據進行檢索,可以避免傳統“關鍵詞檢索”造成的漏檢情況的發生。比如一篇文章里如果有“大海”這個詞,這篇文章有可能和企鵝有關,但是“大海”這個詞用在很多不同的地方,有可能文章講的是別的內容。但是如果一篇文章里有“大海”、“南極”、“黑色”、“白色”、“不會飛”、“羽毛”、“下蛋”、“石油”、“泄露”等這些詞,這篇文章是在談論污染和企鵝的概率就會很高。雖然整篇文章里沒有“企鵝”這個詞,但是很多相關度較低的詞出現在一起就會帶來很高的相關度,并且缺少某個描述詞對其產生的結果影響微乎其微。
如果說傳統的“關鍵字”搜索方法為“search”(搜索)的話,autonomy采用的“模式識別”方法則應該稱為“discover”(發現),因為它可以讓用戶找到一些事前他們不知道的信息[6]。Autonomy產品中提供的“聚類”功能正是“從搜索到發現”的最佳表現。
目前,Autonomy在國外比較成功的應用案例集中在媒體、政府機構、金融和信息產業等需要集中處理大量非結構化數據的領域。2003年3月,Autonomy進入中國市場,目前主要集中在電信和政府市場。Autonomy追求建立符合企業內部數據管理需求的平臺,可將放在不同位置的不同類型的數據進行有效梳理。Autonomy曾經在美國安全局、美國國防部、美國航天局、英國警察署和美國陸軍有過成功應用[7]。對于網絡上出現的大量的有害信息,Autonomy可以做到事前發現,從而幫助政府機構采取及時地反應。例如,政府有關部門要打擊網上非法買賣違禁藥物,使用“搖頭丸”、“興奮劑”等關鍵詞搜索出來的內容多數是關于藥物危害、打擊犯罪等方面的正面文章,而出現“興奮”、“購買”、“單價”等關鍵詞的文章,則與非法買賣違禁藥物的相關度最高。通過這種非關鍵詞搜索的“模式識別”搜索,政府監控部門可以有效打擊日益猖獗的網上犯罪。所以政府機構和一些需要對信息進行監控的機構是該系統在中國的潛在市場。
4Autonomy的技術特點和優勢分析
Autonomy軟件設計的原則是無需用戶改變已有的使用習慣,甚至無需改變已有的用戶界面,它支持所有傳統的檢索和設置方式,包括關鍵詞、邏輯語言、布爾語句等,同時提供給用戶更多、更簡潔的定義方法,如對所需信息的自然語言描述、文章概念的定義,還可以通過反饋的文章作為例子來訓練個人聚焦和頻道。此外,它能夠通過自身軟件架構的靈活性去適應已有的系統架構,嵌入到已有的應用中去,在用戶熟悉的界面之下提供新的功能。Autonomy中最關鍵的部分就是它的動態推理引擎(DynamicReasoningEngine,簡稱DRE),其中信息的概念分析、內容提取、概念模式識別、相關度計算等關鍵工作都是由該動態推理引擎完成。當用戶發出搜索指令后,它可以通過相關方法從互聯網、企業內部網、終端計算機等不同位置的信息源中找到與用戶要求最匹配的信息[8]。它的技術特點主要有如下幾點:
4.1自動內容綜合和精煉
Autonomy能操作的信息同樣包括各種結構化、半結構化和非結構化數據,如RDBMS的表格、LotusNotes等結構化數據,以及HTML頁面、Word文檔、電子表格、電子郵件非結構化數據等。而且它可以綜合及理解豐富的多媒體內容,包括音頻、視頻、圖像文件等。綜Autonomy能夠自動綜合來自200多種不同格式數據源的內容。所有綜合后的文件如有任何改動都可以在Autonomy的基本結構和數據源之間保持同步。公務員之家
4.2個性化操作
Autonomy的自動建檔功能可以準確理解個人和企業用戶的使用習慣和興趣愛好,并能進行追蹤。根據直接檔案和隱含檔案可以生成每個用戶的多側面概念型檔案,它們可以自動追隨用戶當前的興趣,而無需用戶多次填寫任何形式的表格。Autonomy自動的個性化解決方案可以將用戶與有共同興趣的檔案或有間接關聯的檔案匹配起來。
4.3信息自動分類、聚類定義、索引
Autonomy獨有的自動信息聚類避免了手工分類的麻煩,可以將相關網站信息進行全自動分類,能實時、客觀地反映每個科學門類的信息變化,這與其他的模板式自動分類機制有著本質的區別[9]。Autonomy的架構可以識別信息之間的主要關系,從而實現內容間的交叉索引對照,無論是什么文檔,Autonomy都可以在操作層識別出與其相關聯的資料。此外,Autonomy還可以對內容中最主要的概念進行總結,可以根據原始查詢的上下文環境進行總結,并且將最適用的動態摘要提交給指定需求。最關鍵的是Autonomy的這一切工作都無需人工干預自動進行,對企業應用來說,這一點相當有吸引力。
4.4主動匹配和信息地圖
像涉及安全方面的應用可能有非常廣泛的信息搜索需求,從網站上最酷的新聞到剛剛播放的電視畫面,都可能與安全問題相關。利用Autonomy的主動匹配功能,可以在用戶日常工作中充分利用整個企業的信息系統為各個相關部門的相關人員提供有價值的信息。主動匹配可以將典型的文檔或者以數字為中心的用戶界面轉變成以任務為導向的智能界面,也就是說它能自動識別用戶當前的問題,并確定相關信息。
Autonomy還可以自動生成二維或三維的信息圖,將某一時間段的所有信息通過形象的圖像展現在用戶面前,幫助用戶準確、及時地把握世界各地的最新資訊。例如它的最新功能可以跟蹤一系列的郵件信息,告知檢測者每個郵件的流向和被轉發目標。它還可以將連續的信息圖生成信息走勢圖,觀察出多個時間段的信息走勢,從而用戶能一眼看出某一個階段內的信息發展趨勢。這是任何其他搜索系統目前還無法提供5企業非結構化信息搜索的商機,引得眾多IT巨頭紛紛加入搜索戰團,處理非結構化信息的桌面搜索模式成為競爭焦點企業網絡的搜索比網絡的搜索復雜很多,企業信息通常是以各種不同的格式(如電子表格、PDF、HTM網頁,甚至多媒體文件)存儲在各個不同的地方。同時,企業客戶要有可靠的存儲系統,還有協作工具、安全工具等。所以企業搜索需要具備更聰明的功能,能從各種不同的信息來源做信息的收集和關聯。
企業非結構化信息搜索的商機,引得眾多IT巨頭紛紛加入搜索戰團,處理非結構化信息的桌面搜索模式成為競爭焦點。世界頭號軟件廠商的微軟、IBM、Autonomy、Yahoo、AOL等和Google正在開展直接的競爭,于2004年末2005年初紛紛推出了各自的企業搜索產品
- 上一篇:服務信息資源整合研究論文
- 下一篇:教師評價機制在素質教育背景下的改革策略論文