關聯規則下的圖書借閱數據挖掘

時間:2022-02-24 11:19:00

導語:關聯規則下的圖書借閱數據挖掘一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

關聯規則下的圖書借閱數據挖掘

摘要:文章根據高校圖書館的實際業務需要,運用關聯規則對高校圖書館學生的借閱數據進行了挖掘分析。首先將圖書館歷史借閱數據進行預處理,預處理包括對數據進行清理、集成、轉換以及建立事務數據庫;然后利用關聯規則挖掘算法(MFP-Miner算法)對事務數據庫進行挖掘處理,挖掘出圖書借閱的關聯規則,為圖書借閱、圖書推薦等服務提供科學的數據支持,從而提升圖書館服務質量。

關鍵詞:數據挖掘;關聯規則;MFP-Miner算法

0引言

在高校的教學和科研活動中圖書館發揮著重大作用,被稱作“大學心臟”。隨著計算機技術和網絡技術的廣泛應用,圖書館也應不斷提高圖書管理的信息化程度,完善服務功能,滿足當前用戶的需求。為了提高圖書館工作管理效率,當前,高校圖書館采用了數據庫技術實現圖書信息化管理。采用數據庫技術后圖書館的流通服務工作比過去有了很大的進步,但仍然存在著一些問題。學生借閱信息是圖書流通管理中最重要的數據之一,如何利用這些數據,快速挖掘到有效信息,是圖書信息數據挖掘研究熱點。本文重點研究關聯規則在高校圖書館借閱信息的挖掘應用。

1數據挖掘技術

1.1數據挖掘概念

數據挖掘就是從海量信息中挖掘出有用的數據,這些海量信息模糊、隨機、不完整及有噪聲,通過數據挖掘發現隱蔽有規律可用的信息并轉化成可理解的知識。數據挖掘過程主要包括幾個步驟:數據預處理、數據集成、數據變換、數據挖掘及模式評估。

1.2MFP-Miner算法

關聯規則的挖掘算法有很多種,其中MFP-Miner是一種基于FP-Tree的快速挖掘算法。它提取出事務數據庫中的每條事務所包含的頻繁項目,并按支持度降序排序,然后壓縮存儲到頻繁模式樹中,在進行最大頻繁項目集挖掘過程中只需對該樹進行搜索,而不需掃描數據庫,在挖掘過程中不需產生最大頻繁候選項目集,因此,本文采用MFP-Miner算法對圖書借閱關聯規則進行數據挖掘。

2圖書借閱數據關聯挖掘實例分析與應用

2.1數據預處理

一般情況下,因于某些屬性值的空缺或不確定,可能造成數據庫中的數據不完整,因為同一個屬性在不同表中的名稱不同,相同屬性名在不同的表中有不同的含義又往往造成數據庫中的數據不一致。利用這些不完整、含噪聲、不一致的數據進行數據挖掘,挖掘質量很難得到保證,得出的結論也往往是不準確的。并且圖書館的工作中數據庫中的數據量往往非常大,數據的冗余、不一致、不完整現象很難避免,數據分布也較為分散,不易進行綜合查詢。為了改善數據質量,提高數據挖掘的效率和質量,在數據挖掘前必須對數據進行選取與清洗、集成、變換等預處理,這個階段也稱為數據準備階段,是數據挖掘過程中很重要的、必不可少的一個環節,在整個過程中占有十分重要的地位,同時這個階段工作量也相當大,甚至占總工作量的4/5。從圖書館借閱數據挖掘中,數據準備階段一般包括以下幾個步驟。2.1.1數據選取數據選取是指根據用戶需求,從原始數據庫中選擇與知識發現任務相關的數據表項。圖書管理系統中數據庫的數據量往往非常巨大,涵蓋范圍相當廣泛,數據選取時應盡量選取足以完成知識發現任務的最小數據表項。為了描述各類借閱圖書之間的關聯度,選取數據集應包括讀者號(dzh)、借閱日期(jsrq)、圖書分類號(tsflh),所以只要選取包括這3項的圖書借閱表(見表1)即可。2.1.2數據篩選根據研究目標選取所需的信息,即計算機科學與技術專業學生的讀者號(dzh)和圖書分類號(tsflh)。查詢語句為:SELECTdzh,tsflhINTOjsjtbFROMltkWHERE(SUBSTRING(dzh,1,3)=′310′)說明:計算機科學與技術專業讀者號以310開始。執行后,得到所需的計算機專業讀者借閱表(見表2)。從表2中可以看出,表中的每一條記錄描述了讀者的一次借閱行為,包含讀者號和圖書分類號,從圖書分類的角度分析,這里的圖書分類號指的是某一種圖書,分類太細,信息分布是分散的,這種格式的數據不符合基于關聯規則數據挖掘的輸入要求,但可以利用MicrosoftSQLServer2000的DTS工具將數據轉換成所需要的布爾型事務數據庫。2.1.3數據轉換數據轉換主要是對數據進行規格化操作?!皥D書分類號”屬性不是針對某一本書,而是針對某一類或者某一大類,因此應該采用較高層次的類來替換圖書分類號。在這里,只取分類號中的大類,忽略小類。如TP368-44取為TP368。查詢語句為:UPDATEjsjtbSETtsflh=LEFT(tsflh,CHARINDEX(′-′,tsflh)-1)WHERE(CHARINDEX(′-′,tsflh)>0)2.1.4刪除重復記錄讀者借閱的同一類圖書的記錄只需保留一條即可,使用語句如下:SELECTdzh,tsflhINTOjsjtb2FROMjsjtbGROUPBYdzh,tsflh2.1.5刪除無效數據在圖書借閱中,讀者在只借閱一本書的記錄的情況下,不存在圖書類別關聯,所以要將此類數據刪除。使用語句:SELECTdzh,tsflhINTOjsjtb3FROMjsjtb2WHERE(dzhIN(SELECTdzhFROMjsjtb2ASjsjtb2_1GROUPBYdzhHAVING(COUNT(*)>1)))2.1.6用DTS工具將數據轉換成算法所需要的布爾型事務數據庫(見表3)

2.2基于MFP-Miner算法的圖書借閱數據關聯規則的挖掘

構造FP-Tree的步驟如下:(1)根據圖書分類對事務數據庫進行分類統計,求出各類圖書的支持計數,并篩選出大于等于最小支持計數的頻繁項目(在此假定最小支持計數為120),對結果按支持計數降序排列,生成頻繁項目列表L1(見表4)。第一列屬性名proj指的是項目,第二列屬性名pronum指的是項目的支持計數。(2)第二次掃描排序后的事務數據庫,以NULL作為根節點構造頻繁模式樹,步驟如下:①掃描第一個事務,事務中的頻繁項目以第一列作為關鍵字排序,得到項目列表〈(TP311.13∶1),(TP368.3∶1)〉,該分支具有2個節點,其中TP311.13是根的子節點,TP368.3鏈接到TP311.13。②同理,依次掃描事務數據庫中其他事務,遍歷樹并搜索與該項節點同名的節點,如果不存在同名節點,那么就新建頻繁模式樹分支;若某項目列表與FP-Tree的路徑具有相同的前綴,則對公共前綴各節點計數累加1而無須另外創建新節點。這樣,第二遍掃描完事務數據庫后,FP-tree建立完成。生成關聯規則表(見表5)。2.3數據分析本文通過數據挖掘方法找出類似于“讀者借閱了A文獻也會借閱B文獻”的規律,挖掘出如下規則:(1)有15.8%的讀者在借閱國際互聯網類圖書的同時有63.8%的可能再借閱操作系統類圖書。(2)有16.2%的讀者在借閱計算機網絡類圖書的同時有60.2%的可能再借閱模式識別與裝置類圖書。(3)有17.6%的讀者在借閱BASIC編程語言類圖書的同時有58.9%的可能再借閱信息處理類圖書。(4)有17.9%的讀者在借閱表格處理系統類圖書的同時有56.5%的可能再借閱C編程語言類圖書。

3結語

本文基于高校圖書館的海量借閱信息,引入數據挖掘和關聯規則技術,建立了基于MFP-Miner算法的圖書借閱數據關聯規則的挖掘,快速、準確地挖掘出隱藏在圖書借閱數據背后有價值的規則和潛在的信息,為圖書借閱、圖書推薦等服務提供科學的數據支持,從而提升高校圖書館的讀者服務工作質量。面對信息化的浪潮,充分利用數據挖掘來擴充圖書館數據庫的實際應用,是圖書館數據庫高層應用的必然趨勢,數據挖掘技術在圖書館信息管理方面必定會發揮更大的作用。

作者:吳玉春 龍小建 單位:井岡山大學

參考文獻

[1]JochenHipp,UlrichGuntzer,Gholamreza.AlgorithmsforAssociationRuleMining-AGeneralSurveyandComparison[J].SIGKDDExplo-rations,2000(1):58-64.

[2]KleinbergLetal.Amicroecnomicviewofdatamining[J].DataminingandKnowledgeDiseovery,1998(2):311-324.

[3]J.Han,M.Kamber.DataMining:ConceptsandTechniques[M].SanFrancisco:MorganKaufman,2001.(