多層次技術的XML數據挖掘研究
時間:2022-02-24 11:17:14
導語:多層次技術的XML數據挖掘研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:隨著互聯網的廣泛使用,Web的數據挖掘技術成為現階段數據挖掘技術研究的重點,但由于其數據挖掘控制的復雜,對人們的數據挖掘和使用帶來了困難。而XML數據挖掘的出現彌補了Web數據挖掘的缺陷,為其帶來了方便。
關鍵詞:多層次技術;XML數據挖掘;Web數據挖掘;研究
0引言
數據挖掘就是從大量的信息數據中發現潛在的規律性內容,進而對數據應用的質量問題進行解決,實現對數據的充分利用。在互聯網發展支持下的數據挖掘技術得到了快速的發展,特別是以結構化數據為主的數據挖掘技術。數據挖掘技術被廣泛地應用到各個領域,并獲得了好的效果。但這種結構化的數據挖掘技術無法對Web數據挖掘的特性進行處理,Web上的HTML文檔格式也不規范,導致沒有充分挖掘和利用有價值的知識。由此,如何優化傳統數據挖掘技術,實現其和Web的結合成為數據挖掘技術研究領域關注的熱點。而XML的出現,彌補了Web的不足,成為現階段互聯網數據組織和交換的標準,并逐漸出現在Web上。文章對基于多層次技術的xml數據挖掘進行研究。
1Web數據挖掘的難點
第一,異構數據庫的環境。因特網上的信息可以說就是一種數據路,具有大量的數據資源,每個站點的數據源都是異構的,因此,每個站點之間的信息和組織結構不一樣,形成了一種異構數據庫環境。想要獲得和利用這些數據資源需要進行數據挖掘,這種數據挖掘需要對站點的異構數據集成進行研究,同時還要對因特網上的數據查詢問題進行解決。第二,半結構化的數據結構。傳統的數據庫具有數據模型,能夠通過這種模型來對特定的數據進行描述。但因特網上的數據較為復雜,沒有統一的模型讓人進行描述,且自身具有獨立性、動態性的特點,存在自述層次,因而是一種半結構化數據。
2XML數據挖掘技術
2.1XML技術概述
XML是由萬維網協會設計的一種中介標示性語言,主要被應用在Web中。XML類似于HTML,主要被設計用來描述數據的語言,為數據挖掘提供了一種獨立的運行程序,能夠實現對數據的共享,并利用計算機通訊將信息傳遞到多個領域。
2.2XML和HTML的比較
HTML是Web的重要技術要素之一,簡單易學,被很多計算機專業人員應用于創建自己的、具有超文本特定的多媒體主頁,能夠實現網絡和普通人的聯系,創造出豐富的網頁。但其在因特網的應用存在以下幾點缺陷:第一,只是對信息的顯示方式進行描述,沒有對信息內容本身進行描述;第二,需要因特網服務器幫其處理任務工作,加重了網絡的負擔,降低了網絡運行的效率。根據上文對XML技術的概述,可以看出,XML不是一種單純的標記語言,而是一種定義語言,能夠根據需要設定不同的標記語言,突破了HTML固定標記的限制,能夠更好地推動Web的發展。
3基于XML數據挖掘框架設計
3.1設計的特點
第一,具有自然、性能良好、個性化設計的系統用戶界面;第二,主要應用元搜索引擎頁面。這種頁面設計的主要思想是首先對用戶的查詢請求進行預處理,之后向各個搜索引擎發送查詢的請求,最后,在經過處理之后向用戶反饋檢索結果。第三,Web頁面的設計充分應用了HITS的算法。第四,利用XML技術對檢索的數據進行預處理。主要表現為將數據庫中的所有文檔形式轉化為XML文檔形式,之后在數據倉庫的應用下實現各種文檔的集成。
3.2系統設計的結構
XML數據挖掘系統的結構主要包含用戶界面模塊、數據預處理模塊和數據挖掘模塊。第一,用戶界面模塊主要作為用戶和系統交接的端口存在,用戶通過這個界面來實現對數據挖掘系統的使用。在這個模塊中,用戶能夠在對數據挖掘之前設定挖掘的參數,之后提出請求、對挖掘成果分析,實現個性化的數據挖掘。第二,數據預處理模塊主要是指在對數據檢索之后,應用XML技術對檢索的數據進行預處理。第三,數據挖掘模塊主要是對數據預處理后的模塊信息進行挖掘,并將成果展示給用戶。
4基于XML技術的Web數據挖掘
4.1數據挖掘方案的選取
基于XML技術的Web數據挖掘主要分為內容上的挖掘和形式上的挖掘兩種,其中,內容挖掘主要是針對文檔標記的開始和結束之間的文本部分,即對標記值的一種挖掘。具體的內容挖掘方案主要有三種:第一,利用專門的XML數據、半結構數據開發查詢的語言,充分開發其查詢功能,并將這種語言滲透在應用程序中,從而實現對數據的有限挖掘。這種挖掘方案能夠將XML技術和數據挖掘技術進行有效的結合,且具有操作簡單的特點。第二,實現對XML文檔數據的結構化處理。在處理之后將其映射到現有的關系對象模型中,從而實現對數據的挖掘。第三,將XML文檔視為一種文本,采用傳統的數據挖局處理技術對數據進行挖掘。
4.2XML技術數據挖掘實現
XML技術的挖掘實現主要利用XQuery實現關聯挖掘來進行數據挖掘,且不需要對其文檔進行預處理和挖掘后處理,具有操作簡單的優勢。主要采用兩種方式來執行XQuery。第一,使用XhiveNodeIf對象的executeXQuery進行語句的執行,使得集合的每個元素都是對應的對象,并將對象轉換成DOM的節點來進行數據的挖掘。第二,利用XhiveXQueryQueryIf對象調用execute進行語句的執行。在這個過程中會涉及對外部參數的使用。
5結語
XML數據挖掘能夠有效解決因特網數據挖掘難的問題,實現數據挖掘的簡單化操作。XML數據挖掘將不同結構、不容易兼容的數據進行結合,并利用自身的靈活性和延展性將各種應用軟件中的數據進行不同描述,從而方便因特網中數據的收集和記錄。同時,基于XML數據是自我描述性的,不需要內部的描述處理就能實現數據的交換,為其對數據的處理和應用提供了便利的支持。因此,技術XML技術的數據挖掘成為當今因特網數據挖掘的研究重點,需要有關人員引起足夠的重視,進而不斷促進該技術對數據挖掘的應用。
作者:袁園 單位:重慶電訊職業學院
參考文獻:
[1]盧珊.基于XML技術的Web數據自動挖掘新方法[J].信息技術與信息化,2014,12:141-143
[2]王雅軒,頊聰.基于XML的Web數據挖掘模型的設計研究[J].電子技術與軟件工程,2015,03:213-214
[3]周曉梅,王潛平,蘇琳.基于XML的Web數據挖掘模型的設計[J].計算機工程與設計,2007,02:272-274+277
[4]唐明燈.基于數據庫技術的數據挖掘分析與研究[J].信息與電腦(理論版),2010,02:138-139
- 上一篇:基于等級保護的網絡安全體系分析
- 下一篇:攻擊圖的網絡安全風險評估技術研究