關聯規則數據挖掘論文

時間:2022-03-26 04:07:39

導語:關聯規則數據挖掘論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

關聯規則數據挖掘論文

1相關技術

關聯規則最初是針對購物籃分析問題提出的,目的是發現事務數據庫(TransactionDatabase)中不同商品之間的聯系。關聯規則是形如A=》B的蘊涵式,其中A稱為該關聯規則的前項,B稱為該關聯規則的后項。事務,是一個明確定義的商業行為,如顧客在商店購物就是一次典型的事務。由用戶設定的支持度和置信度的門檻值,當sup-port(A=>B)、confidence(A=>B)分別大于等于各自的門檻值時,認為A=>B是有趣的,此兩值稱為最小支持度(minsupport)和最小置信度(minconfidence)。同時滿足minsupport和minconfidence的這種關聯規則就叫做強的關聯規則。設任務相關的數據D是數據庫事物的集合,當項集的支持計數≥D中事務總數|D|與minsup-port的乘積時,就叫做頻繁項集,當項集的支持計數可能≥D中事務總數|D|與minsupport的乘積時,就叫做侯選項集。所有侯選項集K-項集的集合記作Ck,所有頻繁項集K-項集的集合常記作Lk,很明顯Lk奐Ck。如果僅依賴最小支持度和最小置信度這兩個參數的限制,所挖掘出的強關聯規則不一定是用戶感興趣的,因此,用戶可以根據實際應用的需求,再結合自身的領域知識,通過選擇與實際分析任務有關的數據集,設置不同的參數,限定前項和后項的個數,選擇前項和后項包含的屬性等操作,對關聯規則的挖掘進行約束。

2模糊集理論的引入

在討論實際問題的時候,需要判定模糊概念涵義,如判斷某個數據在模糊集的定義和歸屬,這時就需要普通集合與模糊集合可依某種法則相互轉換。模糊理論中的截集是模糊集合和普通集合之間相互轉換的一座橋梁。

3基于事務間數值型關聯規則的數據挖掘算法

假設有一就業數據庫,先通過數據整理,將原始數據記錄值區間[0,10]偏置10個單位。由此就得到了經過偏置后的數據庫記錄。再依滑動窗口方法,設maxspan=1(該值可以依實際情況的需要來定),就可將偏置后的數據庫數據整理轉化為擴展事務數據庫。再把擴展事務數據庫記錄通過隸屬度函數轉化為對應的隸屬度。

4結語

事務間具有相互關聯的項天生就比事務內的項之間的關聯的支持度來得低,這是一個很應值得注意的現象。概括出來就是事務間項具有的低支持度性質,由此衍生出來的就是對提高低支持度項集間關聯規則挖掘效率的討論及其應用。通過基于相似度度量的方法來轉換思路不失為一種好的方法,簡單地說就是在保證失真能被有效控制的狀態下通過科學有效的方法使我們能夠最大程度地逼近來接近真值。如何把這一思路運用到事務間關聯規則的挖掘上特別是能行之有效地對兩個或兩個以上的項進行挖掘,這正是本文所想認真討論的問題。,本文的模糊關聯規則算法對數據量較小或面對中小型數據量進行處理(或者直接處理)也是可以的,但面對大數據量或超大數據量卻是存在一些問題的。原始數據庫轉化為擴展數據庫光這個計算工作量開銷的時間復雜度都是值得深思的;缺少信息壓縮存儲技術以便盡量降低算法的空間復雜度,如采用Hash技術等。

作者:李春青李海生單位:廣西民族師范學院