關(guān)聯(lián)規(guī)則范文10篇

時間:2024-02-02 04:25:26

導(dǎo)語:這里是公務(wù)員之家根據(jù)多年的文秘經(jīng)驗,為你推薦的十篇關(guān)聯(lián)規(guī)則范文,還可以咨詢客服老師獲取更多原創(chuàng)文章,歡迎參考。

關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則挖掘算法探究論文

摘要Apriori算法是發(fā)現(xiàn)頻繁項目集的經(jīng)典算法,但是該算法需反復(fù)掃描數(shù)據(jù)庫,因此效率較低。本文介紹了Apriori算法的思想,并分析了該算法的性能瓶頸。在此基礎(chǔ)上,針對Apriori算法提出了一種改進方法,該方法采用轉(zhuǎn)置矩陣的策略,只掃描一次數(shù)據(jù)庫即可完成所有頻繁項目集的發(fā)現(xiàn)。與其他經(jīng)典的算法相比,本文提出的算法在項目集長度較大時,性能明顯提高。

關(guān)鍵字關(guān)聯(lián)規(guī)則,支持度,置信度,Apriori

1引言

關(guān)聯(lián)規(guī)則挖掘就是在海量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)項之間的關(guān)系,是數(shù)據(jù)挖掘領(lǐng)域中研究的熱點問題。1993年Agrawal等人[1]首先提出了交易數(shù)據(jù)庫中不同商品之間的關(guān)聯(lián)規(guī)則挖掘,并逐漸引起了專家、學者的重視。關(guān)聯(lián)規(guī)則挖掘問題可以分為:發(fā)現(xiàn)頻繁項目集和生成關(guān)聯(lián)規(guī)則兩個子問題,其中發(fā)現(xiàn)所有的頻繁項目集是生成關(guān)聯(lián)規(guī)則的基礎(chǔ)。近年來,發(fā)現(xiàn)頻繁項目集成為了關(guān)聯(lián)規(guī)則挖掘算法研究的重點,在經(jīng)典的Apriori算法的基礎(chǔ)上提出里大量的改進算法。Savasere等[2]設(shè)計了基于劃分(partition)的算法,該算法可以高度并行計算,但是進程之間的通信是算法執(zhí)行時間的主要瓶頸;Park等[3]通過實驗發(fā)現(xiàn)尋找頻集主要的計算是在生成頻繁2-項集上,利用這個性質(zhì)Park等引入雜湊(Hash)技術(shù)來改進產(chǎn)生頻繁2-項集的方法,該算法顯著的提高了頻繁2-項集的發(fā)現(xiàn)效率;Mannila等[4]提出:基于前一遍掃描得到的信息,對此仔細地作組合分析,可以得到一個改進的算法了。針對Mannila的思想Toivonen[5]進一步提出:先使用從數(shù)據(jù)庫中抽取出來的采樣得到一些在整個數(shù)據(jù)庫中可能成立的規(guī)則,然后對數(shù)據(jù)庫的剩余部分驗證這個結(jié)果。Toivonen的算法相當簡單并顯著地減少了I/O代價,但是一個很大的缺點就是產(chǎn)生的結(jié)果不精確,存在數(shù)據(jù)扭曲(dataskew)。

上述針對經(jīng)典Apriori算法的改進算法在生成頻繁項目集時都需要多次掃描數(shù)據(jù)庫,沒有顯著的減少I/O的代價。本文在分析了經(jīng)典的Apriori算法的基礎(chǔ)上,給出了一種改進的方法,該方法采用轉(zhuǎn)置矩陣的策略,只掃描一次數(shù)據(jù)庫即完成頻繁項目集的發(fā)現(xiàn),在項目集長度較大時,性能明顯提高。

2Apriori算法

查看全文

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘論文

1相關(guān)技術(shù)

關(guān)聯(lián)規(guī)則最初是針對購物籃分析問題提出的,目的是發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(TransactionDatabase)中不同商品之間的聯(lián)系。關(guān)聯(lián)規(guī)則是形如A=》B的蘊涵式,其中A稱為該關(guān)聯(lián)規(guī)則的前項,B稱為該關(guān)聯(lián)規(guī)則的后項。事務(wù),是一個明確定義的商業(yè)行為,如顧客在商店購物就是一次典型的事務(wù)。由用戶設(shè)定的支持度和置信度的門檻值,當sup-port(A=>B)、confidence(A=>B)分別大于等于各自的門檻值時,認為A=>B是有趣的,此兩值稱為最小支持度(minsupport)和最小置信度(minconfidence)。同時滿足minsupport和minconfidence的這種關(guān)聯(lián)規(guī)則就叫做強的關(guān)聯(lián)規(guī)則。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事物的集合,當項集的支持計數(shù)≥D中事務(wù)總數(shù)|D|與minsup-port的乘積時,就叫做頻繁項集,當項集的支持計數(shù)可能≥D中事務(wù)總數(shù)|D|與minsupport的乘積時,就叫做侯選項集。所有侯選項集K-項集的集合記作Ck,所有頻繁項集K-項集的集合常記作Lk,很明顯Lk奐Ck。如果僅依賴最小支持度和最小置信度這兩個參數(shù)的限制,所挖掘出的強關(guān)聯(lián)規(guī)則不一定是用戶感興趣的,因此,用戶可以根據(jù)實際應(yīng)用的需求,再結(jié)合自身的領(lǐng)域知識,通過選擇與實際分析任務(wù)有關(guān)的數(shù)據(jù)集,設(shè)置不同的參數(shù),限定前項和后項的個數(shù),選擇前項和后項包含的屬性等操作,對關(guān)聯(lián)規(guī)則的挖掘進行約束。

2模糊集理論的引入

在討論實際問題的時候,需要判定模糊概念涵義,如判斷某個數(shù)據(jù)在模糊集的定義和歸屬,這時就需要普通集合與模糊集合可依某種法則相互轉(zhuǎn)換。模糊理論中的截集是模糊集合和普通集合之間相互轉(zhuǎn)換的一座橋梁。

3基于事務(wù)間數(shù)值型關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法

假設(shè)有一就業(yè)數(shù)據(jù)庫,先通過數(shù)據(jù)整理,將原始數(shù)據(jù)記錄值區(qū)間[0,10]偏置10個單位。由此就得到了經(jīng)過偏置后的數(shù)據(jù)庫記錄。再依滑動窗口方法,設(shè)maxspan=1(該值可以依實際情況的需要來定),就可將偏置后的數(shù)據(jù)庫數(shù)據(jù)整理轉(zhuǎn)化為擴展事務(wù)數(shù)據(jù)庫。再把擴展事務(wù)數(shù)據(jù)庫記錄通過隸屬度函數(shù)轉(zhuǎn)化為對應(yīng)的隸屬度。

查看全文

關(guān)聯(lián)規(guī)則挖掘方法探究論文

摘要從大量事務(wù)記錄中發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,可以幫助做出許多商務(wù)決策,如分類設(shè)計、交叉購物,從而提高銷售額和利潤。本文提出了一種基于鏈表族數(shù)據(jù)結(jié)構(gòu)的關(guān)聯(lián)規(guī)則挖掘的改進方法,性能明顯優(yōu)于Apriori算法。由于該方法只需訪問數(shù)據(jù)庫一次,對于挖掘海量數(shù)據(jù)其性能尤為明顯。

關(guān)鍵詞數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;支持度

1問題概述

關(guān)聯(lián)規(guī)則的挖掘的形式化描述如下:令I(lǐng)={i1,i2,…im}為項目集(也稱為模式),D為事務(wù)(又稱交易)數(shù)據(jù)庫,其中每個事務(wù)T是I中一組項目集合,即TI,并令其有一個唯一的標識符TID。如果對于I中的子集X有XT,則事務(wù)包含項目集X。關(guān)聯(lián)規(guī)則就是形如XY的邏輯蘊涵式,其中XI,YI,且X∩Y=。如果D中S%交易包含X∪Y,關(guān)聯(lián)規(guī)則XY在D中具有支持s。如果D中c%的包含X的交易也同時包含Y,則關(guān)聯(lián)規(guī)則XY在D中可信度c成立。關(guān)聯(lián)規(guī)則挖掘一般分為兩步:①發(fā)現(xiàn)所有的頻繁項目集,也就是說這些項目集在數(shù)據(jù)庫中的支持計數(shù)必須不小于預(yù)先設(shè)定的一個閾值,即最小支持度;②由頻繁項目集產(chǎn)生強關(guān)聯(lián)規(guī)則,也就是說這些強關(guān)聯(lián)規(guī)則必須滿足最小支持度和最小可信度。其中第2步,一般采用如下方法:對于一個頻繁項目集l的每一個非空子集s如果support_count(1)/support_count(s)≥min_conf,(其后support_count(1)表示項目集l在數(shù)據(jù)庫中的支持計數(shù),而min_conf表示最小可信度)則規(guī)則輸出:“s(1-s)”,該規(guī)則也稱為強關(guān)聯(lián)規(guī)則,第2步相對比較簡單,目前大部分研究工作都針對第1步,以改進尋找頻繁項目集的效率,本文針對第1步提出了一種稱為ALT的改進算法。

2研究現(xiàn)狀

目前,關(guān)聯(lián)規(guī)則挖掘算法中,最有影響的是AGRWAL和SRIKANT于1994年提出的Apriori算法[1]。在許多情況下,Apriori的候選產(chǎn)生-檢查方法大幅度壓縮了候選項目集的大小,并導(dǎo)致很好的性能,然而,它有兩種開銷微不足道:①可能產(chǎn)生大量候選項目集;②可能需要重復(fù)地掃描數(shù)據(jù)庫,通過模式匹配檢查有一個很大的候選集合,但有一種有趣的稱為頻繁模式增長(Frequent_PatternGrowth),或簡稱FP-增長解決了此問題。它采用如下分治策略:將提供頻繁項目集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FP-樹),并仍保留項目集關(guān)聯(lián)信息;然后將這種壓縮后的數(shù)據(jù)庫分成一組條件數(shù)據(jù)庫(一種特殊類型的投影數(shù)據(jù)庫),每個關(guān)聯(lián)一個頻繁項,并分別挖掘每個數(shù)據(jù)庫。對于挖掘長的和短的頻繁模式,F(xiàn)P-樹方法都是有效的和可伸縮的,并且比Apriori方法快一個數(shù)量級。其它關(guān)聯(lián)規(guī)則挖掘方法還有參考文獻[1]中討論且給出的AIS算法,參考文獻[2]給出的SETM算法及文獻[3]給出的IUA算法。

查看全文

公司關(guān)聯(lián)交易整治規(guī)則

第一章總則

第一條為了規(guī)范公司(以下簡稱“公司”)的關(guān)聯(lián)交易,保證公司與各關(guān)聯(lián)人所發(fā)生的關(guān)聯(lián)交易的合法性、公允性、合理性;為了保證公司各項業(yè)務(wù)通過必要的關(guān)聯(lián)交易準則順利地開展,保障股東和公司的合法權(quán)益,依據(jù)《公司法》、《公司章程》和其它有關(guān)法律、法規(guī)的規(guī)定,制定本制度。

第二條公司在確認和處理有關(guān)關(guān)聯(lián)人之間關(guān)聯(lián)關(guān)系與關(guān)聯(lián)交易時,應(yīng)遵循并貫徹以下原則:

1、盡量避免或減少與關(guān)聯(lián)人之間的關(guān)聯(lián)交易;

2、確定關(guān)聯(lián)交易價格時,應(yīng)遵循“公平、公正、公開以及等價有償”的原則,并以書面協(xié)議方式予以確定;

3、對于必須發(fā)生的關(guān)聯(lián)交易,應(yīng)切實履行信息披露的有關(guān)規(guī)定;

查看全文

關(guān)聯(lián)規(guī)則下熔煉機組數(shù)據(jù)挖掘論文

1基于數(shù)據(jù)挖掘的機組運行

在熔煉機組優(yōu)化運行的過程中,機組的運行性能指標與人員的操作水平、負荷及運行參數(shù)之間有著復(fù)雜的相互關(guān)系,這種關(guān)系在大量的生產(chǎn)歷史數(shù)據(jù)中與機組各數(shù)據(jù)項之間關(guān)聯(lián),因此可以通過數(shù)據(jù)挖掘的方式把其中的關(guān)聯(lián)關(guān)系定量的反映出來,最終反饋到實際運行中。本文結(jié)合工廠的實際情況,分析由工廠的DCS系統(tǒng)采集的實時運行數(shù)據(jù),來得到用戶期望的相關(guān)參數(shù)間定量的關(guān)聯(lián)規(guī)則。

2交互式關(guān)聯(lián)規(guī)則挖掘算法

關(guān)聯(lián)規(guī)則挖掘算法在數(shù)據(jù)庫的記錄或?qū)ο笾谐槿£P(guān)聯(lián)性,展示了數(shù)據(jù)間位置依賴關(guān)系,其目的是尋找在大量的數(shù)據(jù)項中隱藏著的聯(lián)系或相關(guān)性。其優(yōu)越性在于能將用戶的定制信息整合到挖掘過程中,以一種友好的方式引入約束,使挖掘出更加符合用戶需要的信息,并且提高了挖掘的效率和有效性。

2.1目標數(shù)據(jù)庫的確定

數(shù)據(jù)挖掘應(yīng)熟悉對象的背景知識,明確挖掘的目標,根據(jù)目標確定相關(guān)數(shù)據(jù),以此作為目標數(shù)據(jù)庫,來完成對數(shù)據(jù)的預(yù)處理、挖掘和規(guī)則評價。

查看全文

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的分析及應(yīng)用

摘要:數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘出有用的信息。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。文章分析了數(shù)據(jù)挖掘算法的關(guān)聯(lián)規(guī)則特性,對其在股票市場中的應(yīng)用進行了重點,以便更好的應(yīng)用在更多的領(lǐng)域。

關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘算法;股票

1關(guān)聯(lián)規(guī)則

1.1關(guān)聯(lián)規(guī)則概述

數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。如果兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。近些年來,很多業(yè)界人士對關(guān)聯(lián)規(guī)則挖掘進行了詳細的探討,關(guān)聯(lián)規(guī)則挖掘已經(jīng)成為數(shù)據(jù)挖掘中的一個非常重要的課題。關(guān)聯(lián)規(guī)則概念是Agrawal等人在1993年首先提出的,與此同時還給出了一種性能相對較差的挖掘算法AIS。1994年,由于項目集格空間理論的建立,他們在以往定理的基礎(chǔ)上提出了著名的Apriori算法,這種算法目前仍作為關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法引起了人們的廣泛研究和討論。一開始,關(guān)聯(lián)規(guī)則的產(chǎn)生主要是針對購物籃分析問題。對于分店經(jīng)理來說,如何更詳細更清楚的了解顧客的購物習慣,尤其是想了解顧客可能會在一次購物時同時購買哪些商品?為此,我們對商店的顧客購物零售數(shù)量進行購物籃分析。而顧客的購物習慣就可通過他們放入“購物籃”中的不同商品之間的關(guān)聯(lián)進行分析,零售商也可以通過這種關(guān)聯(lián)分析了解哪些商品頻繁的被顧客同時購買,進而有助于他們設(shè)計出更好的營銷方案。與此同時,一些知名的電子商務(wù)站點也可以從具有強大功能的關(guān)聯(lián)規(guī)則挖掘中獲得很大好處。通過使用關(guān)聯(lián)規(guī)則對數(shù)據(jù)進行分析,這些電子購物網(wǎng)站可以設(shè)置用戶有可能會同時購買捆綁包,也有很多購物網(wǎng)站設(shè)置了相應(yīng)的交叉銷售,具體是指顧客在購買一種產(chǎn)品時會看到與該類產(chǎn)品相關(guān)的另外一種產(chǎn)品的廣告。但是目前我國商業(yè)銀行在數(shù)據(jù)大集中之后,普遍面臨著“數(shù)據(jù)海量,信息缺乏”的窘迫情況。目前,在金融業(yè)所采用的數(shù)據(jù)庫中,大多數(shù)數(shù)據(jù)庫的功能層次都很低,只能夠簡單的實現(xiàn)數(shù)據(jù)的錄入、統(tǒng)計、查詢等,根本發(fā)現(xiàn)不了數(shù)據(jù)中蘊含的大量有實用價值的信息。綜上所述,可以說在關(guān)聯(lián)規(guī)則挖掘技術(shù)方面,我國所進行的應(yīng)用研究并不是很廣泛,而且也不夠深入。

1.2Apriori算法

查看全文

電力市場營銷中關(guān)聯(lián)規(guī)則技術(shù)的應(yīng)用

摘要:通過對電力市場營銷與關(guān)聯(lián)規(guī)則技術(shù)進行探究,并相應(yīng)的地分析電力市場營銷分析中關(guān)聯(lián)規(guī)則技術(shù)的具體應(yīng)用。

關(guān)鍵詞:電力市場營銷分析;關(guān)聯(lián)規(guī)則技術(shù);應(yīng)用探究

科學信息技術(shù)水平的不斷提高使人們產(chǎn)生的用電數(shù)據(jù)也在不斷地增長,怎樣從這些數(shù)據(jù)中找出有價值的信息是電力企業(yè)營銷工作的首要任務(wù)。而關(guān)聯(lián)規(guī)則技術(shù)作為一種重要的數(shù)據(jù)挖掘方法和手段,它可以有效發(fā)現(xiàn)相關(guān)研究對象與其影響因素的關(guān)聯(lián)性,滿足電力企業(yè)提取數(shù)據(jù)的需求,成為企業(yè)挖掘信息的重要步驟。隨著我國電力市場體制機制的不斷深化和改革,電力市場競爭越來越激烈,而且“廠網(wǎng)分開”之后,國內(nèi)很多發(fā)電部門開始關(guān)注競爭模式,并且為了在激烈的市場競爭中勝出,大部分電力企業(yè)都在努力地降低自身的經(jīng)營管理成本,加大對用戶需求情況和競爭企業(yè)的深入了解,以便調(diào)整自身的發(fā)展戰(zhàn)略和服務(wù)模式,進而為廣大用電用戶提供更加優(yōu)質(zhì)的、個性化的電力服務(wù)。而關(guān)聯(lián)規(guī)則技術(shù)作為一種數(shù)據(jù)挖掘技術(shù),應(yīng)用到電力市場營銷分析中去,不僅可以增加對市場信息的了解,而且還有利于提升企業(yè)的經(jīng)營管理水平,對電力企業(yè)的持續(xù)發(fā)展具有重要的作用。

1電力市場營銷的基本概念

本文所指的市場主要是指具有競爭性特點的電力市場,是電力企業(yè)和電能用戶之間通過競價、協(xié)商等方式來交易相關(guān)的電能產(chǎn)品,而且借助市場競爭來有效確定數(shù)量和價格的機制。而電力營銷市場主要是指電力企業(yè)在千變?nèi)f化的市場競爭環(huán)境中,為了不斷滿足廣大用戶的用電需求,采取各種形式的營銷手段和策略,向廣大用電用戶提供更加優(yōu)質(zhì)的電力產(chǎn)品和電力服務(wù),不斷提升用電用戶的滿意度和信賴度,從而獲取更多利潤的一種銷售活動[1]。通俗來講,電力市場營銷就是在電力市場中通過交換行為來滿足潛在用戶和現(xiàn)實用戶需求的一個過程。

2關(guān)聯(lián)規(guī)則技術(shù)分析

查看全文

民法原則與民法規(guī)則的關(guān)聯(lián)性

摘要:作為民法理論基礎(chǔ)的民法規(guī)則、民法原則,共同組成了民法理論,為民事案件的審判提供了重要的法律依據(jù)。在其實際應(yīng)用過程中可以發(fā)現(xiàn)兩者之間的關(guān)聯(lián)性較強,共同為我國的法治化發(fā)展進程發(fā)揮了重要的促進作用。但是他們之間在存有關(guān)聯(lián)性的同時也具有本質(zhì)上的差異,在具體案件審判時還需要參照民法規(guī)則和民法原則進行審判,結(jié)合實際情況正確的使用,因此本文主要探究民法規(guī)則、民法原則之間的關(guān)聯(lián)性所表現(xiàn)出的內(nèi)在聯(lián)系,以及他們之間的關(guān)聯(lián)性的差異表現(xiàn),最后通過具體的案件審判進行探究。

關(guān)鍵詞:民法規(guī)則;關(guān)聯(lián)性;民法原則

法律后果、構(gòu)成要件組成的法律規(guī)則就是民法規(guī)則,其特征是具體明確。而民法原則主要體現(xiàn)了經(jīng)濟基礎(chǔ)的特征、民法的本質(zhì),是判斷民事行為、抽象價值的重要準則。在民法的全部領(lǐng)域都可以使用民法原則,而民法規(guī)則則適用于民法的特定領(lǐng)域。深入研究兩者之間的關(guān)聯(lián)性,為實際應(yīng)用中提供便利,從而做出更加準確的判決。

一、民法規(guī)則與民法原則的關(guān)聯(lián)性所表現(xiàn)出的內(nèi)在聯(lián)系

在民法領(lǐng)域范圍內(nèi),民法規(guī)則與民法原則都適用,他們之間的關(guān)聯(lián)性較強,具有一些共同的特征,這些共同特征促使兩者之間存有密切的內(nèi)在聯(lián)系。主要表現(xiàn)在以下幾方面:

(一)在整個民事立法過程中的關(guān)聯(lián)性———兩者都可以體現(xiàn)出來

查看全文

關(guān)聯(lián)規(guī)則下的圖書借閱數(shù)據(jù)挖掘

摘要:文章根據(jù)高校圖書館的實際業(yè)務(wù)需要,運用關(guān)聯(lián)規(guī)則對高校圖書館學生的借閱數(shù)據(jù)進行了挖掘分析。首先將圖書館歷史借閱數(shù)據(jù)進行預(yù)處理,預(yù)處理包括對數(shù)據(jù)進行清理、集成、轉(zhuǎn)換以及建立事務(wù)數(shù)據(jù)庫;然后利用關(guān)聯(lián)規(guī)則挖掘算法(MFP-Miner算法)對事務(wù)數(shù)據(jù)庫進行挖掘處理,挖掘出圖書借閱的關(guān)聯(lián)規(guī)則,為圖書借閱、圖書推薦等服務(wù)提供科學的數(shù)據(jù)支持,從而提升圖書館服務(wù)質(zhì)量。

關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;MFP-Miner算法

0引言

在高校的教學和科研活動中圖書館發(fā)揮著重大作用,被稱作“大學心臟”。隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用,圖書館也應(yīng)不斷提高圖書管理的信息化程度,完善服務(wù)功能,滿足當前用戶的需求。為了提高圖書館工作管理效率,當前,高校圖書館采用了數(shù)據(jù)庫技術(shù)實現(xiàn)圖書信息化管理。采用數(shù)據(jù)庫技術(shù)后圖書館的流通服務(wù)工作比過去有了很大的進步,但仍然存在著一些問題。學生借閱信息是圖書流通管理中最重要的數(shù)據(jù)之一,如何利用這些數(shù)據(jù),快速挖掘到有效信息,是圖書信息數(shù)據(jù)挖掘研究熱點。本文重點研究關(guān)聯(lián)規(guī)則在高校圖書館借閱信息的挖掘應(yīng)用。

1數(shù)據(jù)挖掘技術(shù)

1.1數(shù)據(jù)挖掘概念

查看全文

超市事務(wù)數(shù)據(jù)庫規(guī)則探討論文

摘要:現(xiàn)在全球經(jīng)濟發(fā)展正在進入信息經(jīng)濟時代,各種形式的信息大量地產(chǎn)生和收集導(dǎo)致了信息爆炸,如何采用基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)超市事務(wù)數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則是本文所研究和探討的重點。

關(guān)鍵詞:數(shù)據(jù)挖掘電子商務(wù)關(guān)聯(lián)規(guī)則

1引言

目前,在需要處理大數(shù)據(jù)量的科研領(lǐng)域中,數(shù)據(jù)挖掘受到越來越多的關(guān)注。我們可以利用數(shù)據(jù)挖掘技術(shù)從海量數(shù)據(jù)中發(fā)現(xiàn)有用信息,幫助商家了解客戶以往的需求趨勢,并預(yù)測未來,從而給商家?guī)砭薮蟮睦麧櫋T跀?shù)據(jù)挖掘領(lǐng)域,采用關(guān)聯(lián)規(guī)則在大型事務(wù)數(shù)據(jù)庫中進行數(shù)據(jù)挖掘是一個重要的研究內(nèi)容。關(guān)聯(lián)規(guī)則是美國IBMAlmadenResearchCenter的RabeshAgrawal等人于1993年首先提出的KDD研究中的一個重要課題。關(guān)聯(lián)規(guī)則挖掘的一般對象是事務(wù)數(shù)據(jù)庫,這種數(shù)據(jù)庫的主要應(yīng)用在零售業(yè),比如超級市場的銷售管理。關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫中不同商品(項)(Item,指事務(wù)中的內(nèi)容,比如,面包、牛奶等都是項目)之間是否存在某種關(guān)聯(lián)關(guān)系。通過這些規(guī)則找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。發(fā)現(xiàn)這樣的規(guī)則可以應(yīng)用于商品貨架設(shè)計、貨存安排以及根據(jù)購買模式對用戶進行分類。

2關(guān)聯(lián)規(guī)則描述

目前關(guān)聯(lián)規(guī)則挖掘主要考慮支持度和置信度兩個閾值。設(shè)X是項集,T是數(shù)據(jù)庫DB中的任意一個記錄。X的支持度是指支持X的記錄數(shù)與全體記錄數(shù)的比,Support(X)=|{T|TX,T∈DB}|/|DB|。蘊涵關(guān)系X==>Y在數(shù)據(jù)庫DB中的置信度是指同時支持X和Y的記錄數(shù)與支持X的記錄數(shù)之比,即:Confidence(X==>Y)=|{T|TXY,T∈DB}|/|{T|TX,T∈DB}|支持度可理解為在DB中隨機抽取一個記錄,該記錄同時支持X和Y的概率。置信度可理解為在支持X的記錄全體中隨機取一個記錄,該記錄支持Y的概率。

查看全文