數據挖掘技術分析論文范文
時間:2023-04-03 16:22:47
導語:如何才能寫好一篇數據挖掘技術分析論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
關鍵詞 技術情報分析;數據挖掘
中圖分類號TP392 文獻標識碼A 文章編號 1674-6708(2013)92-0211-02
1 概述
在面對海量的情報信息資源時,如何高效、準確的開展分析工作,為管理決策人員提供支持,已成為當今科技工作的重要組成部分。可以說,情報分析方法和相關工具的合理使用決定了情報獲取的準確性和有效性,并將直接影響制定戰略決策的有效性和科學性。
技術情報分析系統主要進行與技術相關科技論文、專利、互聯網情報數據的分析,實現分析方法、算法、分析結果的表現形式以及分析報告自動生成等技術。該情報分析系統除了基本的維度統計分析外,更多的側重于利用知識發現、數據挖掘等技術進行情報數據的深度處理與分析。通過情報分析系統開發設計,結合數據挖掘等技術的合理使用,使得系統使用者能夠快速、有效、全面地獲取技術的情報信息。
2 系統的設計與功能描述
2.3 數據挖掘技術設計
2.3.1數據文本特征表示
在進行文本挖掘時,對文本特征進行處理,實現對非結構化的文本向結構化轉換。情報分析系統采用向量空間模型(Vector Space Model,VSM)進行文本的表示,并利用倒排文檔頻率TFIDF進行專利文本的特征提取,以此作為論文、專利文本挖掘的基礎。
2.3.2關聯算法
在挖掘論文專利作者之間、機構之間、國家之間的研究內容關聯性上,采用了基于文本挖掘的關聯算法。通過對技術關鍵詞的共生關系(Terms Co-occurrences)計算來識別、確定一組文獻內部所包含的技術組(群)。
2.3.3 層次結構可視化算法
情報分析系統中關于論文和專利的引證分析、專利同族分析采用了層次結構可視化算法Hyperbolic Tree,即雙曲樹算法。其主要原理是將樹結構在雙曲空間進行布局,然后映射到歐式空間的龐萊卡圓盤進行顯示。歐式空間中兩個相同大小的區域離龐萊卡圓盤中心越近,在雙曲空間中所占用的空間越小;反之,雙曲空間中兩個大小相同的區域離原點越近在龐萊卡圓盤中所占用的空間越大。
4 結論
本文提出運用數據挖掘方法實現對大量數據的分析和判斷,可有效幫助科技情報機構和人員提高綜合情報分析能力和決策的質量。同時,該方法可按照不同需要進行功能拓展,實現向更多的技術情報領域延伸。
參考文獻
[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一屆亞太地區知識發現與數據挖掘國際會議(PAKDD),IOS Press出版, 2007.
[2]樂明揚.公安情報分析中的數據挖掘應用研究.信息與電腦.2012(8).
[3]蒲群瑩.基于數據挖掘的競爭情報系統模型[J].情報雜志.2005,1.
篇2
關鍵詞:文本 時態 關聯規則 垂直數據 有效時間
引言
現代化的企業搜集了大量時態文本數據,但信息超載和無結構化,使得企業決策部門無法有效利用現存的信息,時態數據挖掘技術便應運而生。目前有關時態關聯規則算法已較多,但是如果運用到時態文本關聯規則的挖掘中則時間復雜度都太高。所以本文將對時態文本關聯規則挖掘進行研究。
1.時態文本預處理
1.1時態文本處理
在挖掘時態文本關聯規則之前,需要先對文本進行預處理,對英文而言需進行Stemming處理[5],中文的情況則不同,因為中文詞和詞之間沒有固定的間隔,需進行分詞處理。
對于本文研究的是醫學病毒論文數據庫,是一個英文數據庫,文本預處理的具體內容如下:
①英文大寫換小寫(都以小寫字母表示,方便文本識別);②刪除空白記錄;③將論文信息中的標題和摘要進行(可以提高關鍵詞的比重,增加提取文本向量的精度);④處理時間DP列,只保留年份數字,方便提取有效時間;⑤對于記錄太多的庫,適當拆分表格(否則在程序處理時會內存溢出);⑥根據文本內容提取合適的停用詞表,對文本內容進行去停用詞處理。
1.2 時態文本表示
在對時態文本進行清理后,需將其進行表示。在文本處理時我們已提取論文的發表時間,所以將時間和文本分列處理,然后將文本單獨表示。本文采用向量空間模型(VSM,Vector Space Model)進行表示[6]。
2.時態關聯規則算法概述
以前的算法不能有效應用到時態文本數據庫中,主要原因有:1)這些算法計算時時間復雜度仍太高。2)沒有考慮每個獨立文本項各自存在的有效時間;3)每個項目缺少一個合理的可以浮動的支持度數。所以本文根據時態事件模型及Apriori原則,本文在快速更新算法思想上產生新的算法:SPFM(Segment-Progressive-Filter-Miner)
該算法主要包括三步:1.數據庫不斷更新;2.對數據庫按不同時間段進行劃分;3.對每個時間段的事務集挖掘頻繁項集。拆分后的數據庫,每個階段部分有不同的支持度閾值,我們按不同的支持度閾值進行計算來產生候選項集。
SPFM算法主要有三個特點:1)算法預處理時將文本數據轉換成垂直數據格式,可大大提高程序效率;2)在挖掘時態數據庫的頻繁項集時,通過更新不同時間粒度的支持度數來確定頻繁項集,并判斷頻繁項集在時間粒度上的連續性;3)如2)所述,時態數據庫是和時間粒度有關的,那么從時態數據庫挖掘出的關聯規則也應該是和時間粒度有關的,即存在“有效時間”,本算法引入一種判斷機制,使得發現的有效時間是由頻繁項集本身決定的,最終我們獲得的是一組浮動的“有效時間”。
3.實驗測試
為了測試SPFM的算法性能,用Visual C++進行編程。對象為醫學病毒論文數據庫中1970~2010年間約50萬條的記錄,每條記錄的屬性包括fileno(論文標號)、TI(標題)、AB(摘要)、DP(發表時間)等。以“年”作為時間粒度,將數據庫劃分為40個階段部分。minsup為0.5‰,minconf為35%,然后進行頻繁項集的挖掘,并確定每個頻繁項集的有效時間,依次循環直至2010年為止。
比如rous(含鐵血黃素)和sarcoma(1979年、1981年、1983年),都是強關聯規則,且COS判斷值為0.8165>0.5,說明該規則有意義,這兩者在1979~1983年是一個共同研究熱點,它們之間有可能存在一些密切的聯系,在醫學上也可以深入研究。
通過對醫學文本數據庫的挖掘,我們挖掘出上百條時態文本關聯規則,從這些規則當中我們能得到近40年學者們對病毒研究的規律以及病毒的發展規律,這些規律會是對以往病毒研究的較好總結,也會有助于更有效地治療已產生的病毒。
在文本數據挖掘技術已經日漸成熟的背景下,把時態數據與文本挖掘聯合起來,可將時態文本數據挖掘應用于醫學、經營、管理等各個方面,通過對海量的時態文本數據進行關聯分析,為管理者做決策提供參考數據;還能為新的經營模式提供目標和思路,減少盲目性,以獲得更大利益。
4.結束語
本文提出了對醫學病毒論文數據庫中的時態文本如何進行預處理,需先將時間和文本分為不同的列,將文本表示為向量空間模型。然后確實頻繁項集的有效時間,將文本數據轉換成垂直數據格式,再通過新的算法挖掘頻繁項集,最后對時態文進行強關聯規則的挖掘。該實驗是對時態文本進行預處理后再進行關聯規則挖掘的,最后驗證了該算法的有效性。
參考文獻:
[1] 潘定.持續時態數據挖掘及其實現機制[M].北京:經濟科學出版社,2008:36
作者簡介:
張春燕(1987- ),女,碩士生,主要研究方向為數據挖掘;
篇3
關鍵詞 大數據;CiteSpace;教育
中圖分類號:G642 文獻標識碼:B
文章編號:1671-489X(2016)18-0069-03
Abstract The advent of the era of big data has brought new vitality
and challenges for educational research. This paper uses bibliometric visualization software Cite Space to analyze thesis with key words data and education from CNKI based on Co-occurrence analysis of keywords, explore the hot issues in the field of educational research, summarize the research status and trends.
Key words big data; CiteSpace; education
1 引言
近年來,教育領域研究者開始關注大數據背景下的教育管理模式轉變、教育決策研究等內容,大量基于大數據背景的教育領域研究論文逐年增加。以“大數據”“教育”為主題關鍵詞在CNKI中國知網進行搜索,僅選擇SCI、EI、中文核心、CSSCI四類來源期刊截止到2015年12月出版的文獻,共檢索到417條數據,從2010年開始呈現出逐年上升的趨勢。對這些文章進行瀏覽和篩選,選擇與本研究主題相關的論文,共247篇。對這247篇文章的關鍵詞信息進行研究,分析大數據的出現對教育領域研究熱點及發展趨勢的影響。
2 教育領域熱點問題研究知識圖譜
CiteSpace軟件是一款引文可視化分析軟件,著眼于分析科學知識中蘊含的潛在信息,通過可視化的手段呈現科學知識的結構、規律和分布情況[1],能對文獻進行作者分析、關鍵詞共現分析、機構分析、作者共被引分析、文獻共被引分析等。關鍵詞共現分析是一種內容分析技術,通過分析在同一個文本主題中的款目對(單詞或名詞短語對)共同出現的形式,確認文本所代表的學科領域中相關主題的關系,進而探索分析學科領域的發展,發現學科的研究熱點和研究趨勢[2]。
使用CiteSpace軟件對下載的文獻進行關鍵詞共現分析,生成圖1所示關鍵詞共現知識圖譜,分析大數據的出現對教育領域研究熱點和趨勢的影響。關鍵詞出現的頻次由圓圈代表的節點反映,圓圈越大,表明關鍵詞出現次數越多,最大圓圈代表的關鍵詞是“大數據”。
根據圖1得到表1所示文獻關鍵詞、被引頻次、中心性等指標數據。中心性代表共現程度的高低,中心性越強,表明該關鍵詞與其他關鍵詞共同出現的幾率就越大,也就表示該關鍵詞在共現網絡中的影響力越大。從知識理論角度分析,頻次和中心性高的關鍵詞一般是某一段時期內研究者共同關注的問題,也就是研究的熱點和前沿。表1中,“大數據”是頻次最高也是中心性最高的關鍵詞;“學習分析”頻次為23,中心性為0.22;“數據挖掘”頻次為13,中心性為0.15,等等這些都是熱門的研究主題。
3 大數據背景下教育領域的熱點研究
依據圖1和表1所示結果,將大數據背景下教育領域的熱點研究總結為以下幾個方面。
學習分析和數據挖掘 教育數據挖掘是數據挖掘在教育領域的新型應用,主要目標為知識發現、決策支持和推薦等。學習分析是測量、搜集、分析和報告學生及其相關的學習環境的數據,用以理解和優化學習過程和學習環境[3]。
教育數據挖掘專注于技術層面,側重教育數據模型和模式的抽取,強調挖掘結果的自動化反饋;學習分析更注重研究有利于改善學習的干預措施。
2012年,美國教育部了報告《通過教育數據挖掘和學習分析促進教與學》[4],提出“數據驅動學校,分析變革教育”的大數據時代已經來臨,要綜合運用教育數據挖掘和學習分析,構建教育模型,探索教育變量,為教育教學提供有效支持。
在CNKI中以“學習分析”和“教育數據挖掘”為關鍵詞進行檢索,得到圖2所示的文獻數量趨勢圖。如圖2所示,2010年以前的文獻數量很少,但2010年之后開始呈指數式增長;2016年1―2月份刊登的相關主題期刊論文已有5篇,可以預計本年度,學習分析和數據挖掘仍將是大數據背景下教育領域的研究重點和熱點之一。
在線教育――興起與變革 以“在線教育”和“大數據”為關鍵詞進行搜索,得到圖3所示文獻數量趨勢圖。目前在線學習的發展趨勢主要有如下表現。
1)移動學習是大方向:隨著無線網絡的覆蓋,移動終端特別是手機用戶的增多,移動學習逐漸發展起來。
2)免費是大趨勢:目前在線學習存在各式各樣的免費現象,如免費試用、前期付費后期免費等形式。
3)細化管理是要求:任何一種在線學習方式,都離不開資源開發、管理和優化等工作,需要設定管理要求,細化規則。
4)實現互動是必然:交互功能是在線學習軟件必然要設計的功能,大多數在線學習使用者表示學習過程中希望能有更多的互動交流。
5)個性化學習是亮點:學習分析和教育數據挖掘的出現,使得在線學習存儲的大量數據能夠被更快速分析和使用,學習者可以隨時掌握學習狀況,開發商也可以掌握學習者的興趣點、學習特征等,為學習者推薦或制訂個性化的學習方案。
教育信息化 我國的教育信息化主要包含兩層含義:一是把提高信息素養納入教育目標,培養適應信息社會的人才;二是把信息技術手段有效應用于教育,注重教育信息資源的開發與利用。教育信息化的核心是教學信息化,要求在教育過程中較全面地運用現代信息技術,促進教育改革,適應信息化社會提出的新要求,深化教育改革,實施素質教育。隨著大數據時代的來臨,教育信息化也在不斷進步,未來的教育信息化將在教育云平臺上進行展現,現有的教育網、校園網將全面升級,實現互聯網、電信網、廣電網等跨平臺使用并支持移動設備。
在CNKI中以“教育信息化”和“大數據”為關鍵詞進行檢索,2013年共有3篇學術論文,2015年共有10篇,研究主題包括大數據時代的信息化教學、教師培訓、課程資源建設、教育輿情監控等。
教育決策 以“教育決策”為關鍵詞搜索到上千篇學術論文,以“教育決策”和“大數據”為關鍵詞,2013年以來共有8篇論文。大數據將在教育決策中發揮越來越重要的作用已成為共識,但如何利用大數據進行決策是目前面臨的難題,如何解決這個難題也是研究者重點關注的領域。教育決策離不開數據,大數據背景下的數據更加復雜、凌亂,呈現碎片化的特征,并且摻雜一些虛假數據,如何收集、選擇數據,是第一步需要做的事情。大數據對于教育決策的價值在于為教育服務,將數據轉化為支持決策的信息,需要數據分析者具備綜合、全面的數據分析素質和能力。大數據的核心是預測,隨著教育信息化和在線學習的持續發展,數據呈爆炸式增長,需要對數據進行整合、分析,發現新知識,為教育優化服務。
4 數據推動決策
傳統決策過程主要依靠決策者的經驗,主觀性較強,或多或少存在一些不足,難以充分發現教育過程中的潛在問題,無法真正有效地優化教學、提高學生表現。信息化推動了人類發展,逐漸成為人類生活必不可少的重要部分;信息化技術普及的同時,也產生前所未有的海量數據。大數據時代的來臨,顛覆了傳統數據分析方法;大數據背景
下,利用數據挖掘方法發現問題、支持決策具有多方面的意義。
1)優化教學、提高教育質量。教師若能充分利用學生學習數據,分析學生學習過程,可以更加快速、便捷、有效地了解學生,發現不足之處并及時反饋,提供改進意見等[5]。
2)為學校管理者制訂更加合理的教學計劃和方案提供決策支持。基于數據的教育決策能夠為管理者提供更加準確、合理的決策支持。基于數據的教育決策能夠提供從數據到決策,實施決策后產生的數據再到決策的一種良性循環過程[6]。
3)幫助地區甚至是國家級決策者進行科學判斷。數據推動決策具有相當明顯的優勢,能為決策者提供全方位的視角。大數據分析得到的結果具有全面性、多視角性、參考性強等特點,能夠更好地為決策者提供決策支持。
5 結語
上文所分析出的教育領域熱點研究問題,都緊緊圍繞“數據推動決策”這一主題,學習分析和教育挖掘是分析方法和技術;在線教育是數據來源;教育信息化是信息化大數據環境;教育決策則是根據數據制定決策并運用于教育教學。可見,利用數據推動決策已成為教育領域在大數據背景下最為重要的研究問題之一。
參考文獻
[1]陳悅,陳超美,胡志剛.引文空間分析原理與應用:Cite Space實用指南[M].北京:科學出版社,2014.
[2]潘黎,王素.近十年來教育研究的熱點領域和前沿主題:基于八種教育學期刊2000-2009年刊載文獻關鍵詞共現知識圖譜的計量分析[J].教育研究,2011(2):47-53.
[3]Siemens G. Learning and Knowledge Analytics-Knewton-the future of education?[EB/OL].[2011-04-17].http:///?p=126.
[4]Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics[DB/OL].[2012-10-12].http://ed.gov/edblogs/technology/files/2012/03/edm-la-brief.pdf.
篇4
關鍵詞:推薦系統;云計算;數據挖掘;個性化
中圖分類號:TP393 文獻標識碼:A DOI:10,3969/J.issn.1003-6970.2013.03.001
本文著錄格式:[1]郭平,劉波,沈岳,農業云大數據自組織推送關鍵技術綜述[J].軟件,2013,34(3):1-6
0 引言
隨著物聯網、云計算、下一代互聯網等新一代信息技術的快速發展和信息內容的日益增長,“信息過載”問題愈來愈嚴重,推薦系統(recommender systems)被認為可以有效的緩解此難題,幫助用戶從海量數據中發現感興趣信息,滿足個性化需求。
近年來,我國在農業個性化知識服務服務領域從本體論、語義網、知識工程角度開展了廣泛的研究,成果主要體現在三個方面:以搜索引擎為代表的知識檢索系統,需回答大量預設問題進行知識推理的專家系統,特定領域應用系統,它們在各自的場合都發揮了積極作用。然而知識檢索系統不能滿足用戶個性化需求,專家系統的應用很難普及,特定領域應用開發成本高和重用難度大。物聯網與數據挖掘云服務提供知識服務云實現物理世界的“感知控”,知識服務云的研究主要集中在制造和圖書情報領域,云環境下的農業個性化知識服務的研究尚處于起步階段,主要集中在服務模式的構建與展望。
本文是對科技部科技支撐課題“農村農業信息化關鍵技術集成與示范”(2011BAD21803)與“農村物聯網綜合信息服務科技工程”(2012BAD35800)研究成果的總結,也是對農業云推薦系統研究的升華。
1 農業云大數據自組織區域推送的提出
1.1 農業信息資源特點
我國自“十一五”時期以來,農業農村信息化發展取得了顯著成效,主要表現在農業農村信息化基礎設施不斷完善、業務應用深入發展、物聯網技術在農業中逐步推廣應用等方面。從中央到省,市、縣建立了“三農”綜合信息服務平臺,涉農企業、組織和科研院所也積極搭建了各具特色的農業信息服務平臺,目前正向鄉鎮村發展。農村信息員隊伍及以農業綜合信息服務站和農業合作社為代表的農村信息服務機構發展迅速,“三電合一”、“農民信箱”、“農村熱線”等信息服務模式應用深入。云計算利用海量的存儲能力把農業信息資源形成高度集成和虛擬化的計算資源一“農業知識聚合云”,支持用戶在任意位置、使用各種終端方便獲取信息,但由于農業領域生態區域性和過程復雜性及農業區域發展不平衡和農民文化的多層次性也帶來了“信息過載”、“資源隱晦”“資源迷向”等問題。
1.2 農業云環境下大數據自組織區域推送
物聯網和云計算背后是大數據,在云計算模式下,用戶不確定的、智能的交互,個性化需求更加多元化,信息交互行為更加頻繁;在大量用戶通過社會標注達成共識的過程中,逐漸形成不同社區,涌現出群體智能,形成“農業用戶興趣社交云”。利用云的海量存儲、群體涌現智能、強大的計算能力和物聯網感知控優勢,可以提供面向用戶復雜分析計算,實現業務重點由面向應用和資源的傳統信息服務,轉變為基于對海量農業知識進行動態劃分,有目的、主動、定制、自組織推送給有需求的農業用戶,為農業用戶提供實時性、個性化知識服務,指導農業生產過程。
首先以Hadoop+MapReduce+HBaSe分布式框架為處理平臺,對“農業用戶興趣社交云”,融合用戶興趣偏好和社交網絡進行建模,將這些多元用戶信息充分融入推送系統會更好產生推薦結果;將推薦對象“農業知識聚合云”按農業知識高維性、多樣性、多層次性特征分類聚類為各種知識塊靜態和動態元數據;通過智能算法推薦和社會網絡推薦為用戶發現個性化內容;根據用戶的地理位置、用戶服務的評價以及云基礎服務提供商信息將預測值最高的服務推送給用戶實現與物理世界的互動(如圖1)。
從以上分析可知,農業云大數據自組織區域推送的關鍵技術有用戶興趣模型、推薦對象模型,推薦算法、數據挖掘四個部分,以下分別對這幾項技術進行論述。
1.2.1 用戶興趣模型
用戶興趣建模是個性化服務技術的基礎和核心,包括數據收集、模型表示、模型學習與模型更新。用戶興趣建模的方法有很多,常用的有向量空間模型、神經網絡、遺傳算法、用戶一項目評價矩陣、基于案例的表示、基于本體論的表示、基于加權關鍵詞的表示,基于社會網絡的表示等。幾乎每種表示形式都是以一種私有形式進行知識表示,此外一些表示技術還依賴于模型學習,如廣泛使用的基于向量空間模型的表示與TF-IDF學習技術聯系在一起。表示形式的私有性和對學習技術的依賴性阻礙了用戶模型在系統間的共享,這種共享對于減少用戶建模工作量,提高推薦算法啟動效率具有重要意義。因此開發獨立于模型學習技術的通用用戶模型表示技術是目前研究中熱點,基于語義網和社交網絡的用戶模型在這方面表現了優勢。
用戶的興趣或需求會隨時間、情景發生變化,結合長期和短期興趣及興趣的變化用戶興趣建模的重點,目前的更新機制很難及時跟蹤用戶興趣的變化,有更好的學習效率和動態變化適應能力的建模是未來的重要研究方向,國內外大量的文獻對此展開了研究,遺忘函數、時間窗、用戶興趣的漂移特性等被提出。
在湖南農業云中,基于呼叫中心、互聯網,手機報、手機短信,電視廣播等用戶在多應用系統中形成的興趣偏好和社交網絡特征,提出“農業用戶興趣社交云”建模思路:以圖論模型表示用戶“興趣圖”數據和“社交圖”數據,根據經典的局域世界演化理論,綜合考慮實際情況中用戶之間的多重關系和關系的強弱程度,以用戶之間相似度為節點連接概率因素,生成動態多維網絡,進行用戶數據的挖掘和更新;結合農業本體,在多維社交網絡的基礎上,將基于農業本體的區域用戶興趣融合在云計算平臺上進行處理。
1.2.2 推薦對象模型
推薦本質上是將推薦對象的特征與用戶的興趣偏好進行推薦計算,所以推薦對象的描述和用戶的描述密切相關。推薦系統應用不同領域,它推薦的對象也就各不相同,目前,湖南農業云主要是文本性數據;不同的對象,特征也不相同,目前沒有一個統一的標準來進行統一描述,主要有基于內容、分類、聚類的方法。
基于內容的方法是從對象本身抽取信息表示對象,常見的是向量空間模型,使用最廣泛的是加權關鍵詞矢量方法進行特征選取,使用TFIDF計算每個特征的權值。向量空間模型對模型中的特征詞進行權重估計(TF-IDF)過程中不考慮特征詞之間的相關性,直接用特征詞作為維度構建文檔向量,降低了文檔向量對文檔概念表達的準確性以及對不同類型文檔的區分能力。
基于分類的方法是把推薦對象放入不同類別,把同類文檔推薦給對該類文檔感興趣的用戶。主要有兩種,一種是基于知識工程的方法,使專家的類別知識直接編碼為分類規則,正確率和召回率高,但工作量大;近期研究最多的是另一種一機器學習,根據訓練樣本集建立分類器,方法有很多,常見的有概率分類、貝葉斯回歸分析、決策樹分類器、決策規則分類器、Rocchio分類器、神經網絡分類器、支持向量機(SVM)、分類器融合、Boosting分類器、k最近鄰方法(KNN)等。
研究文本聚類的最初目的是為了提高信息檢索的查全率和查準率,近年來,文本聚類用于自動產生文本的多層次的類,并利用這些新生成的類對新文本進行效率較好的歸類,已經提出了大量的文本聚類算法。傳統的聚類算法在處理高維和海量文本時效率不很理想。針對這樣的問題,將聚類分析與計算智能理論,并行計算、云計算等相結合,設計出高效的并行聚類算法,己經成為一個比較流行的研究思路。
在湖南農業知識云數據模型中,將能更好反映特征詞相關性的超圖模型引入,將文檔中提取的特征項表示為圖中節點,特征詞條之間的關系構成圖中邊,用邊上權值表示相關聯特征項之間共現程度。通過對文本圖模型K最近鄰劃分實現降維降噪的粗粒度數據切片;對切片后數據反映用戶興趣如地域、時間、訴求等多維度特征的智能聚類,實現細粒度的聚合與分割。
“農業知識聚合云”模型算法建立在基于MapReduce處理的大規模圖上,得到各種知識塊靜態和動態元數據。
1.2.3 推薦算法
推薦算法是整個推薦系統中核心部分,大量的論文和著作都關注了這個方面。目前,基本包括以下幾種:基于內容過濾推薦、協同過濾推薦、基于關聯推薦、基于知識推薦、基于效用推薦、基于網絡結構推薦、基于聚類推薦、基于社會網絡分析推薦、混合型推薦等。通過對眾多推薦算法進行比較分析,各種算法都有優缺點(如表1):
各種推薦方法都有各自的優缺點,在實際問題中采用多種策略進行混合推薦,主要有兩種混合思路:推薦結果混合和推薦算法混合。目前大部分的推薦算法都是混合推薦算法,主要還是以協同理論為核心,再配合其他算法的優點或交叉學科的理論來改善推薦的質量。另外基于社會網絡個性化推薦算法研究是一個趨勢,基于社會網絡的推薦是協同過濾的延伸,通過考察結點之間(用戶和用戶之間或產品之間)的相關性和結點之間的信任度可以獲得比一般協同推薦更高推薦效果,如文獻提出將社會網絡關系結合到推薦算法中。縱觀國內外在推薦算法上的研究,主要集中在基于用戶顯性評分數據的協同過濾算法上,對基于非顯性評分行為數據場景下的研究卻顯得有點不足。目前在擴展性問題上學術研究不是很具有針對性,主要集中在通過各種交叉學科中的方法來對用戶進行聚類或對行為數據進行降維、壓縮等縮短推薦的項目集或減少計算量,從而提升算法的性能;有關基于云平臺上的推薦算法研究目前主要集中于協同過濾算法MapReduce化。而實際應用中,己出現利用分布式集群解決算法擴展性方法,如Google News的推薦算法就是部署在分布式環境下,從而滿足海量數據下的推薦服務。
根據農業云大數據自組織區域推送實際情況將推薦結果和推薦算法混合,提出“三層推薦”策略:在豐富的知識塊云元數據基礎上,將知識塊屬性和用戶興趣行為基于頻繁模式的知識關聯撮合推薦;通過復雜網絡聚類算法識別一個用戶多個社區興趣,融合“興趣圖”和“社交圖”協同過濾推薦,突破算法推薦的局限性,讓用戶信任的朋友圈子為其發現和推薦內容,取得社交推薦的時效性和算法推薦的長尾性之間的互補,從而針對每個社區成員提供精準個性化推薦;根據基礎設施服務供應商、用戶所在的地理位置以及用戶對服務可用性評價值的相似性等,將大量用戶云終端聚類為一定數量的社區,提高云端推送服務的有效性,最終形成通過大眾參與,支持云間變換,集電信網、廣播電視網、互聯網合一的自組織區域推送,較有效地處理一般推薦算法中存在的稀疏性、冷啟動以及大規模實時計算的問題。
1.2.4 云計算下個性化數據挖掘
數據挖掘采用了多種領域中的思想,包括來自統計學的抽樣、估計、假設檢驗以及人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。隨著數據挖掘的不斷發展,也采用了包括最優化、進化計算、信息論、信號處理、可視化、信息檢索、云計算、并行計算等技術。與傳統的數據挖掘相比,云計算下的個性化數據挖掘的目標,就是通過云計算中心,向用戶提供針對其即時演化需求的數據挖掘SaaS(Software as aService,軟件即服務)服務,其基礎問題主要為:對于用戶不同的數據挖掘需求以及針對用戶特點進行個性推薦的建模和表征;數據挖掘算法適應云計算的并行分布式化;使數據挖掘的結果和算法能夠支持云間變換并形成一種面向用戶、即時組合的、變粒度的云服務,其中數據挖掘的云服務化是研究的難點。
(1)云計算下個性推薦的建模和表征
云下的個性推薦建模和表征與傳統上個性化推薦明顯的不同在于海量異構大數據和用戶間群體涌現的社交網絡,它們本質上形成了多個頂點的大規模圖。云計算可以為大規模個性化提供技術支撐,云服務本身也有大規模個性化定制應用需求,目前研究兩者結合的文獻還很少,張澤華從計算資源的角度基于復雜系統理論對云計算聯盟體系結構進行建模,并基于蟻群優化算法和復雜系統理論進行了負載均衡研究;郭昱就有效處理客戶需求信息該如何選擇與分布云計算平臺中的關鍵節點問題,提出了基于云計算的大規模定制客戶需求模型。趙東杰對復雜網絡、數據挖掘與群體智能有效結合進行了探索研究。農業云大數據自組織推送通過“農業知識聚合云”分解的靜態、動態知識元數據和“農業用戶興趣社交云”形成的興趣圖、社交圖基于用戶行為和知識元數據的關聯撮合,通過人工智能和社交圈子幫助用戶發現內容,實現搜索和推薦的無縫結合,為智能個性化推薦實現“內容找人”愿景。
(2)算法并行分布式與高性能計算
對于大規模數據的處理,典型系統結構大致分為三類:基于MapReduce模型的分布式并行處理系統、基于BSP模型的分布式并行處理系統和分布式圖數據庫系統。數據挖掘算法現在的發展趨勢是基于云計算的并行數據挖掘,它的同一個算法可以分布在多個節點上,多個算法之間是并行的,多個資源實行按需分配,而且分布式計算模型采用云計算模式,數據用DFS或者HBASE,編程模式采用MapReduce這種方式。Bhaduri等整理了一個十分詳盡的并行數據挖掘算法文獻目錄,包含了關聯規則學習、分類、聚類、流數據挖掘四大類分布式數據挖掘算法,同時還包括分布式系統、隱私保護等相關的研究工作。
2 基于云計算推薦系統研究的重點、難點與熱點
2.1 云環境下用戶偏好獲取安全與可信問題
推薦系統中,用戶數據集的數量和質量問題,影響用戶模型的精確度、可用性,導致問題的根本原因在于用戶對隱私和安全的考慮。而云環境下,數據的安全與隱私是用戶非常關心的問題。既能得到準確用戶信息而提高推薦系統性能,又能有效保護用戶信息同時檢測并能預防推薦攻擊(一些不法的用戶為了提高或降低某些對象的推薦概率,惡意捏造用戶評分數據而達到目的)將是未來推薦系統的一個重要研究方向。
2.2 模型過擬合問題
過擬合現象是指系統推薦給用戶的對象與用戶剛剛看過的不是太相似或者太不相關。過擬合(過學習)的問題本質上來自于數據的不完備性,這在實際應用中是無法完全避免的。在于興趣偏好獲取方式或隱私等原因使用戶沒有對足夠多類別的對象進行評價。目前解決的主要方法是引入隨機性,使推薦算法收斂到全局最優或者逼近全局最優,關于既要保證推薦的多樣性,又不能與用戶看過的對象重復或毫不相關這一問題的研究是推薦系統研究的一個難點和重點。
2.3 稀疏性與冷啟動問題
稀疏性和冷啟動問題困擾推薦系統很長時間了,前者的解決辦法主要過濾和降維。目前針對冷啟動問題提出了一些解決方法,主要分為兩大方面,一是直接利用傳統協同過濾的評分數據結合特定的方法進行解決,二是新用戶或新項目的內容屬性信息與傳統的協同過濾評分數據相結合的方法進行改善冷啟動問題。稀疏性與冷啟動問題一直是推薦系統研究的一個難點和重點。
2.4 數據挖掘的結果和算法智能服務化
將數據挖掘算法融入針對海量用戶的使用記錄和計算資源間協作進行優化組合,利用這些特性通過大眾參與的交互作用,提高云間服務的智能性、有效性將是大數據時代推薦系統研究的一個制高點。將數據挖掘任務及其實現算法服務化,通過SaaS方式向云計算中心索取所需的相應的數據挖掘,這可能是目前突破數據挖掘專用軟件使用門檻過高、普通大眾難以觸及、企業用戶使用成本太大、挖掘算法和結果難以實時得到評價和相應修改等問題的最有希望的解決方案之一,也是數據挖掘走向互聯網大眾、走向實用化的重要的一步。
2.5 大數據處理與增量計算問題
目前對大數據的研究仍處于一個非常初步的階段,半結構化和非結構化數據給傳統的數據分析帶來巨大挑戰,尤其算法如何快速高效地處理推薦系統海量和稀疏的數據成為迫在眉睫的問題。當產生新的數據時,算法的結果不需要在整個數據集上重新進行計算,而只需考慮增量部分,對原有的結果進行微調,快速得到準確的新結果,是增量計算的理想狀態。但一般而言,隨著信息量的增多,算法的誤差會累積變大,最終每過一段時間還是需要利用全局數據重新進行計算。一個特別困難的挑戰是如何設計一種能夠保證其誤差不會累積的算法,也就是說其結果與利用全部數據重新計算的結果之間的差異不會單調上升,要達到這種程度,還有很長的路要走。
結束語:
隨著新一代信息技術的快速發展和信息內容的日益增長,搭載在云計算平臺的自組織區域推送具有它天然的優勢:云的海量存儲使得推薦系統能有效獲取訓練數據;云的分布式計算能力提供了較高的響應能力;海量用戶的使用記錄和計算資源問大眾參與的交互涌現,最終形成自組織優化組合的智能個性化云推送。因此,農業云自組織區域推送具有重要的研究意義和廣闊的應用前景,對云環境下其他領域的個性化推送應用具有借鑒意義,但目前存在大量問題需要進行深入細致的研究。
參考文獻
[1]孟祥武,胡勛,王立才,張玉潔,移動推薦系統及其應用[J],軟件學報,2013,24(1):91-108
[2]楊濤,基于本體的農業領域知識服務若干關鍵技術研究[D],上海:復旦大學計算機科學技術學院博士論文,2011,1-50
[3]楊曉蓉,分布式農業科技信息共享關鍵技術研究與應用[D],北京:中國農業科學院博士學位論文,2011,3-35
[4]趙春江,農業智能系統[M],北京:科學出版社,2009,1-210,
[5]何清,物聯網與數據挖掘云服務[J],智能系統學報,2012,7(3):1-5,
[6]黃衛東,于瑞強,共享學習模式下知識服務云平臺的構建研究[J],電信科學,2011,12:6-11
[7]丁靜,楊善林,羅賀,丁帥,云計算環境下的數據挖掘服務模式[J],計算機科學,2012,39(6):217-219,237
[8]鄧仲華,錢劍紅,陸穎雋,國內圖書情報領域云計算研究分析[J],信息資源管理學報,2012,2:10-16
[9]胡安瑞,張霖,陶飛,羅永亮,基于知識的云制造資源服務管理[J]同濟大學學報(自然科學版),2012,40(7):1093-1101
[10]程功勛,劉麗蘭,林智奇,俞濤,面向用戶偏好的智能云服務平臺研究[J],中國機械工程,2012,23(11):1318-1323,1336
[11]劉波,方逵,沈岳,可重構的農業知識服務模式研究[J]農機化研究,2011,36(11):66-70
[12]趙星,廖桂平,史曉慧,陳誠,李文圃,物聯網與云計算環境下的農業信息服務模式構建[J],農機化研究,2012,4:142-147
[13]郭永田,中國農業農村信息化發展成效與展望[J],電子政務,2012,02-03:99-106
[14]李道亮,中國農業農村信息化發展報告(2011)[M],北京:電子工業出版,2012,87-150
[15]錢平,鄭業魯,農業木體論研究與應用[M],北京:中國農業科學技術出版社,2006,1-100
[16]吳麗花,劉魯,個性化推薦系統用戶建模技術綜述[J],情報學報,2006,25(2):55-62
[17]李珊,個性化服務中用戶興趣建模與更新研究[J],情報學報,2010,29(1):67-71
[18]王國霞,劉賀平,個性化推薦系統綜述[J],計算機工程與應用,2012,48(7):66-76
[19]王巧容,趙海燕,曹健,個性化服務中的用戶建模技術[J],小型微型計算機系統,2011,32(1):39-46
軟件雜志歡迎推薦投稿:http:///
[20]張華清,動態多維社會網絡中個性化推薦方法研究[D],濟南:山東師范大學碩士學位論文,2012,16-31
[21]丹,面向跨系統個性化服務的用戶建模方法研究[J]_情報雜志,2012,31(6):156-161
[22]鄧夏瑋,基于社交網絡的用戶行為研究[D],北京:北京交通大學碩士學位論文,2012,4-43
[23]馬堯,基于多維用戶特征建模的個性化社交搜索引擎的設計與實現[D],廣州:華南理工大學碩士學位論文,2012,12-55
[24]陳恩紅,徐童,田繼雷,楊禹,移動情景感知的個性化推薦技術[J],中國計算機學會通訊,2013,9(3):19-24
[25]Jong Hwa Kima,b,,Hyun JoonLeeb,Extraction of user profile based on workflow and information flow[J],Expert Systems with Applications,2012,39(5):5478-5487
[26]南智敏,錢松榮,引入漂移特性的用戶興趣模型優化研究[J],微型電腦應用,2012,28(3):30-32
[27]郭新明,弋改珍,混合模型的用戶興趣漂移算法[J],智能系統學報,2010,5(2):181-184
[28]程顯毅,朱倩,文本挖掘原理[M],北京:科學出版社,2010,9-45 [29]李濤,推薦系統中若干關鍵問題研究[D],南京:南京航空航天大學博士學位論文,2009,31-80
[30]姜倫,模糊聚類算法及其在中文文本聚類中的研究與實現[D],哈爾濱:哈爾濱理工大學碩士學位論文,2010,18-48
[31]馮汝偉,謝強,丁秋林,基于文本聚類與分布式Lucene的知識檢索[J],計算機應用,2013,33(1):186-188
[32]陶紅,周永梅,高尚,一種基于語義相似度的群智能文本聚類的新方法[J]計算機應用研究,2012,29(2):482-532
[33]孟海東,劉小榮,基于聚類分析的圖模型文檔分類[J]計算機應用與軟件,2012,29(1):117-174,229
[34]饒君,張仁波,東呈曉,吳斌,基于MapReduce的大規模圖挖掘并行計算模型[J],應用科技,2012,39(3):56-60
[35]于戈,谷峪,鮑玉斌,王志剛,云計算環境下的大規模圖數據處理技術[J],計算機學報,2011,34(10):1753-1767
[36]呂善國,吳效葵,曹義親,基于網絡結構的推薦算法[J]_實驗室研究與探索,2012,31(7):278-280,368
[37]周佳,羅鐵堅,一種基于內容關聯的學術資源協同推薦算法[J],中國科學院研究生院學報,2013,30(1):117-123
[38]唐曉波,張昭,基于混合圖的在線社交網絡個性化推薦系統研究[J]情報理論與實踐,2013,36(2):91-95
[39]王立才,孟祥武,張玉潔,上下文感知推薦系統[J],軟件學報,2012,23(1):1-20
[40]劉建國,周濤,汪秉宏,個性化推薦系統的研究進展[J],自然科學通報,2009,19(1):1-15
[41]許海玲,吳瀟,李曉東,閻保平,互聯網推薦系統比較研究[J]軟件學報,2009,20(2):350-362
[42]孫冬婷,何濤,張福海,推薦系統中的冷啟動問題研究綜述[J],計算機與現代化,2012,5:59-63
[43]張亮,基于聚類技術的推薦算法研究[D],成都:電子科技大學碩士學位論文,2012,7-18
[44]Liu, F.,Lee, H.J. Use of social network information to enhance collaborative filterinperformance.Expert[J] Systems with Applications. 2010, 37(7):4772-4778.
[45]Jiang, J., Lu, J., Zhang, G., Long, G. Scaling- Up Item-Based CollaborativeFiltering Recommendation Algorithm Based on Hadoop[C].2011 IEEE World Congress onServices.IEEE[A]. 2011, 490-497.
[46]周源,基于云計算的推薦算法研究[D],成都:電子科技大學碩士學位論文,2012,26-64
[47]呂雪驥,基于云計算平臺的智能推薦系統研究[D],合肥:安徽大學碩士學位論文,2012,25-43
[48]劉晨,改進的聚類挖掘算法對網絡自助出版“長尾”文本的推薦應用[D],上海:復旦大學碩士學位論文,2011,10-19
[49]陳桂生,張海粟,劉玉超,云計算下的個性化數據挖掘服務[EB/OL],[2011-2-28]中國人工智能學會通訊,http://www,/contents/50/119,html
[50]張澤華,云計算聯盟建模及實現的關鍵技術研究[D],昆明:云南大學博士學位論文,2012,26-114
[51]郭昱,吳清烈,基于云計算的大規模定制客戶需求響應模型及其節點的選擇與分布[J],系統工程理論與實踐,2011,31(增刊2):1-6
[52]趙東杰,張海粟,韓言妮,楊海濤,何宇,基于網絡化數據挖掘的群體智能研究方法[C],Proceedings of 2010 The 3rdInternational Conference on Computational Intelligence andIndustrial Application(Volume 9).IEEE[A].2010,239-243.
[53]AnandRajaraman,Jeffrey David Ullman著,王斌譯,互聯網大規模數據挖掘與分布式處理[M],北京:人民郵電出版社,2012,1-253
[54]Bhaduri K, Das K, Liu Kun, et al. Distributed data mining bibliography[EB/OL]. [2011-01-03]. http:// cs. umbc. edu/~hillol/DDMBIB/
[55]楊健,汪海航,王劍,俞定國,云計算安全問題研究綜述[J],小型微型計算機系統,2012,33(3):472-479
篇5
關鍵詞:LIMS,數據倉庫,數據挖掘
1 引言
食用菌實驗室管理系統LIMS以食用菌研發數據管理為核心,系統利用數據倉庫技術將菌種、營養環境參數、試驗方案、研發人員、海量實驗數據等信息進行抽取清洗和存儲,采用數據挖掘技術對以上各類數據進行分析。目的在于整合應用HACCP控制體系,對產品研發過程進行智能化監控。通過對工廠化研發食用菌產品的各項關鍵技術、風險評估、比較執行度等參數進行管理和監控,實現食用菌產品研發管理流程過程管理目標。
美國試驗與材料學會(ASTM)在概念模型中將LIMS的功能分成了3個級別。三個不同等級在全局功能、數據庫結構、數據采集和分析、實驗報告、實驗室管理以及系統管理方面都有明確規定的描述。
國內真正構建和全面應用LIMS的實驗室還不多,且大部分偏重于管理,其功能與LIMS國際標準存在較大差別,系統通用性與專業性無法平衡,不能滿足食用菌實驗室研發數據管理的需要。國內部分單位開發的食用菌方面的軟件可以幫助實驗室處理一般數據和轉換格式,但缺少對食用菌實驗室的實驗流程、實驗資源、研發數據、實驗結果等全方位信息進行管理分析的網絡化LIMS。
2 相關技術介紹
目前關于農作物研發實驗數據分析領域主要分成兩類:具有人工智能特點的推理機系統和一般的信息系統。前者通常需要預先建立知識庫,然后在此基礎上創建知識原型系統。這樣的專家系統存在很多不足,一方面它們僅能羅列一些簡單知識,而且隨著專家知識的不斷積累,增加或者修改庫中的知識都會引起知識大爆炸和推理時的邏輯混亂,使得產生錯誤的結論而失去了專家系統的意義。一般的信息系統系統則只能提供咨詢服務和信息查詢,沒有數據分析和建模的功能。將數據倉庫和數據挖掘技術應用到食用菌LIMS中,實現實驗參數的電子化管理和監控,幫助發現食用菌實驗數據內部的規律性聯系,解決實驗過程管理和決策優化輔助問題。
數據倉庫中的數據面向主題,與傳統數據庫面向應用相對應[1]。數據倉庫的典型技術包括:數據的抽取轉換和裝載,數據的存儲和管理,數據挖掘和呈現等等。
2.1 數據的抽取轉換和裝載
用于數據挖掘的原始數據源可能是多個數據庫或數據倉庫,而這些數據源的結構和規則可能是不同的,這將導致原始數據非常雜亂和不可用,即使在同一個數據庫中,也很可能存在重復的和不完整的數據信息,為了使這些數據能夠符合數據挖掘的要求,提高效率和得到清晰的結果,必須進行數據的預處理[2]。ETL過程就是對原始數據進行抽取轉換清洗等預處理,按照預定義好的數據倉庫模型,將數據裝載至數據倉庫中。
2.2 數據的存儲和管理
數據倉庫在數據存儲和管理上有三個明顯的技術特征:首先,系統要求對大量數據進行存儲和管理。其從,要求能夠解決并發處理的問題,也就是說能夠將用戶的請求進行均衡分擔。第三個問題是針對決策支持查詢的優化。第四個問題是支持多維分析的查詢模式。數據倉庫專家們發現,關系數據庫若采用“星型模式”來組織數據就能很好地解決多維分析的問題[3]。因此面向決策支持擴充的并行關系數據庫在這四個個方面都有不錯的表現,是非常成熟的管理系統,大多數廠商提供的數據倉庫解決方案也都采用此類系統[3]。
2.3 數據呈現和挖掘
數據呈現技術主要集中在多維分析、數理統計和數據挖掘方面。食用菌分析應用中一個很重要的任務就是找出食用菌培育各困素之問可能存在的相關性,利用分類決策樹、關聯規則、時間序列算法來創建分析模型[4]。通過前臺分析工具,將查詢報表、統計分析、多維聯機分析和數據發掘的結論展現在用戶面前。
3系統設計
3.1 功能設計及模塊詳述
系統包括如下業務功能模塊:試驗方案管理、研發過程管理、食用菌CCP管理、風險管理、發菌管理、出菇管理、基本信息管理模塊。如圖1所示。
圖1 功能結構圖
現針對上述結構圖,分別對功能模塊作詳細描述。
(1)試驗方案管理
該模塊用于工廠化研發食用菌產品試驗方案的管理。每個試驗方案創建時,系統會自動分配方案的唯一標志號,為以后查詢、修改方案提供方便。試驗方案中的詳細數據項可為系統其他模塊如發菌管理、出菇管理、智能決策、警提供數據來源。
HACCP定義數據包括:
(2)研發過程管理
該模塊以食用菌研發周期為基礎,對食用菌研發管理的各個流程全程記錄,準確的實現產品溯源,提高產品研發過程的質量管理。通過與HACCP系統有效整合應用,用戶能夠對系統所定義的食用菌的栽培過程中的每個特性值進行采集、分析,實現對企業技術中心各部門、各試驗實施環節運行情況的監測。具體包括數據采集、曲線圖表、歷史查詢、報表統計、報警監視、培養料配置、帶裝滅菌、接種管理、發菌期管理、出菇管理、采收管理等
(3)菌種生產管理
菌種生產管理用于食用菌菌種生產計劃和菌種生產的過程管理,輔助實現菌種規范化、標準化生產,有效提高菌種質量。
其中菌種生產計劃HACCP數據定義包括:母種、原種、栽培種培養基的選擇、配制,包括配方選擇和培養基配制記錄,其中涉及日期、培養料級別、配方原料種類、數量、總數量(瓶/kg)、制備負責人、驗收結果、驗收人、對不合格的處理措施)等主要內容。
滅菌消毒操作HACCP數據包括:滅菌方式的選擇,如常壓滅菌/高壓蒸汽滅菌。不同的焙養基選擇不同的壓力指標、滅菌時間、滅菌形成溫度。滅菌消毒記錄表:涉及日期/滅菌設備號/物品名/數量/操作人/檢驗結果/檢驗人。論文參考。
菌種培養作HACCP數據包括:涉及日期、菌種名、種類、數量、培養室編號、檢驗依據、檢查情況等。
(4)風險管理
本模塊在檢測各項關鍵技術因素的基礎上,比較執行情況與其原始方案的差異,從而進行合理的技術風險評估,推算出與之相關的研發栽培措施,及時調配研發人員,體現了強大的交互功能。
① 風險評估:將已識別的技術風險因素,通過執行情況與原始方案的差異比較,利用一定評估方法計算出風險的大小,并分析風險因素的敏感性(或稱影響度),最終以風險評估報告的形式呈現給用戶。
②應對方案:根據風險的大小即可確定技術風險的嚴重性,根據嚴重性風險排序,即可制訂風險應對方案,決定下一步任務,及時調配技術人員解決問題。有些技術風險與其他風險緊密相關或交叉重疊,需要綜合分析和處理;有些技術風險還需進一步跟蹤研究,待時機成熟再加以控制。在制訂應對方案時,通過風險影響度分析,將影響度高的風險因素作為風險控制的核心。
③ 風險追蹤:通過技術風險跟蹤,可以監視技術風險狀態.當技術風險超過需控制的標準,即通過預警功能,進入制訂風險應對方案階段。
④報警處理:對研發過程中出現的報警記錄及時進行處理
⑤ 風險數據庫構建:該模塊用于管理食用菌研發過程各項環節中各項風險知識,包括創建、存儲、修改、刪除等功能。其中知識存儲的數據結構和知識獨立性是實現關鍵。
(5)基本信息管理
該模塊用于人員及產品信息管理,為管理層提供便捷的信息服務,提高管理服務效率。包括:公司信息管理、部門信息管理、人員信息管理、產品信息管理、角色管理、系統模塊訪問權限控制。
3.2 技術架構設計
食用菌LIMS技術架構設計的基本原則包括兼容性、靈活性、充分考慮與其它業務管理子系統的銜接和擴展,為未來進一步的系統應用整合打好基礎。 鑒于上述原則,系統從技術架構上可以劃分為四個層次:數據層、控制訪問層、業務邏輯層和用戶呈現層。論文參考。如圖2所示:
圖2 技術架構設計
數據層的設計目標是解決數據的保存和管理問題。其中,數據庫中數據表的設計是該層需要考慮的核心和關鍵,如何從現實業務邏輯中抽象出易于系統處理的數據,從而降低各平臺間的數據關聯性,減少數據關聯性,降低模塊耦合度。該層的配置包括:DTS配置、數據對象配置和Analysis Service配置。
控制訪問層由數據庫基礎組件和配置文件組成,配置數據庫層訪問的參數、性能、安全加密等配置,包括數據訪問模塊、數據分析模塊、圖表匯出模塊。
用戶層根據不同的業務類別調用下層的邏輯組件,最后對業務邏輯組件的調用結果進行處理。該層由多個業務模塊組成,包括: 分析結果顯示模塊、圖表控制模塊。
5 結語:
本項目將食用菌產品研發管理的全部流程納入到軟件層次進行管理。對工廠化研發食用菌產品的各項關鍵技術、風險評估、比較執行度等參數進行管理和監控。利用構建的軟件平臺可以直接查詢數據,進行食用菌試驗方案的追蹤溯源。論文參考。本項目使食用菌產品研發與管理技術研究信息化系統得以與HACCP系統有效地進行整合應用,系統采用自行研發的報表統計分析系統,能夠對各種數據實時匯總到系統。不僅能為企業管理者提供相關的決策信息,達到實時監控整個企業技術研發的穩定高效開展,達到輔助決策的目的,而且可以動用管理決策相關的數學方法和技術進行決策優化,為各級技術研發管理層提供各種最優解、次優解或滿意解、可行解,提高管理決策的科學性;合理利用企業技術中心的各項資源,提高企業的經濟效益。
參考文獻:
[1] W. H. Inmon. Building the DataWarehouse Third Edition [M]. John Wiley & Sons, Inc. 2002.
[2] 安淑芝. 數據倉庫與數據挖掘[M]. 北京:清華大學出版社,2005.
[3] 高小惠. 數據倉庫技術在企業人力決策支持中的應用. 科學時代. 2007,12 .
[4] 張榮祖. 數據挖掘技術在食用菌數據分析中的應用. 復旦大學碩士學位論文,2004.
篇6
關鍵詞:任務驅動;探究式;課程改革
中圖分類號:G642 文獻標識碼:A 文章編號:1009-3044(2014)06-1253-03
Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course
HUANG Jian
(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)
Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.
Key words: Task-driven; Inquiry; Curriculum reform
數據挖掘是一門包括了數據庫系統、專家系統、機器學習、統計學、模式識別、信息檢索、人工智能等學科的綜合性的學科,其目標是發現隱藏在大型數據集中的知識模式。此課程一般是在研究生教育階段開設[1],但隨著社會對應用型人才的需求越來越大,這就要求我們的學生畢業后不僅要有扎實的理論基礎,更要有較強的創新能力和實踐能力。
我校針對信息與計算科學及統計學兩個專業開設了數據挖掘課程。該專業學生擁有較強的數學理論基礎,并掌握了數學建模、統計學、數據庫等相關學科。數據挖掘作為一門綜合性課程,是融合學生各科知識,提高該專業學生應用實踐能力,培養學生團隊協作能力的很好的載體課程。
1 數據挖掘課程教學特點
數據挖掘技術是一個多學科交叉的綜合研究領域。不過也正因為它涉及的范圍很廣泛,發展的時間也不是很長,因此要真正理解數據挖掘的本質并不是一件容易的事情。我校針對信息與計算科學和統計學兩個理學專業開設此課程,并將此課程歸類為實踐類課程。經過筆者多年對傳統教學方法的研究和改革,發現了在數據挖掘教學中存在的問題:
1) 理論教學困難:數據挖掘課程內容涉及領域廣泛,如統計學、數據庫、機器學習、模式識別等內容,并且所涉及的算法繁多。由于本科生的知識體系不健全,理論基礎相對薄弱,造成了學習難度過大。此外,由于學時限制,無法在課堂中詳細地講述算法理論,導致了學生積極性不高,很難達到教學目標。
2) 實踐環節無法讓學生體會數據挖掘本質:數據挖掘是從數據獲取、數據整理、預處理、數據挖掘分析、結果分析等一系列流程的綜合。但由于課時關系,我們課程中的實踐環節往往是針對某個特定的算法,讓學生利用已經預處理好的數據進行算法的應用。數據挖掘成本很高,但是這個成本往往并不是金錢,而是時間,而數據整理和預處理的時間往往占到全部工作量的80%。不經過完整的數據挖掘流程訓練,學生就無法體會數據挖掘的本質。
3) 軟件應用缺乏:針對海量數據分析是必須要應用到計算機技術處理。當今針對數據挖掘應用的軟件很多,如SAS公司的EM模塊、SPSS的Modeler、WEKA、Matlab以及各數據庫系統配套的OLAP功能等。在課堂中,不可能對任何一款軟件都詳細的進行講解。這就使得學生很難進行算法的應用實踐。
2 任務驅動探究式教學模式
針對目前教學存在的這些問題,廣西大學梁斌梅提出了目標驅動的專業課教學法,利用導入課吸引學生、利用教學目標引導學生[2]。韓秋明等人編著的《數據挖掘技術應用實例》中采用了大量的行業數據,為數據挖掘教學模式的改革提供大量的應用實例[3]。結合本校的學生特點,參考國內的一些研究成果,該文提出了基于任務驅動探究式教學模式。課程整體主線由任務驅動,學生進行探究式自主學習。
任務驅動是基于構建主義教學理論基礎上的教學方法,以學生為主體,以老師為主導的一整套教學新模式。而探究式教學是與直接接受式教學相對的,在任務驅動的同時,激發學生的好奇心,并驅使學生投入到知識獲取的自主學習活動中。任務驅動探究式教學模式是將兩者有機的結合起來,使學生能夠明確學習目標、提高學習興趣、提升學習動力,發揮學生的自主學習能力、創造能力,培養學生分析問題、解決問題的能力。通過自主學習,自行的完成階段性的教學任務,以達到相應的教學目標。任務驅動探究式教學模式,適合操作性和應用性強的課程。任務驅動探究式教學模式的核心思想是在教學方面強調任務驅動,在學習方面則強調探究式學習。因此必須合理地設計課程教學方案,在“教”和“學”兩個方面進行設計。老師必須在任務設計、實施進程管理、信息反饋等各方面做好銜接,保證學生能夠時刻跟上任務進度,并保持足夠的興趣度。
3 基于案例驅動探究式教學模式的數據挖掘課程改革
任務驅動探究式教學模式是以學生為主體,教師主導的新型教學模式。教師的作用在于教學組織和任務布置的安排調度。利用任務引導學生學習相關知識,提高學生的學習主動性。因此,如何根據課程需要合理地進行課程任務設計,安排任務進度都是課程改革成功的關鍵。
3.1 課程內容重新整合
數據挖掘是一個由數據收集、數據預處理、數據分析挖掘、結論分析等各個步驟組成的整體過程。在現有的數據挖掘書中,針對數據收集、數據預處理部分往往比較簡化,大部分篇幅都在講述數據挖掘算法,如分類算法、關聯算法、聚類算法。如果在課程內容設計時,僅僅對算法做重點講述而忽略前期步驟,將會造成學生內容知識的脫節,無法體會數據挖掘整個流程,從而不能真正地理解數據挖掘思想本質。因此,本課程教學目標應該是重點培養學生分析問題、解決問題和團隊協作能力,樹立數據挖掘思維體系,了解數據挖掘基本算法,能夠應用數據挖掘軟件解決實際問題并得到結果。
根據這個教學目標對課程內容進行適當調整。首先,增加緒論內容并設置導入課。在導入課中增加生活中學生感興趣的數據挖掘故事,經典案例以及各行業中的應用,從而提高學生學習的興趣。其次,適當增加數據獲取、數據預處理以及數據挖掘軟件的介紹,使得學生能夠明確數據怎么來、如何處理以及用什么工具處理等問題。最后,有選擇地介紹基本的數據挖掘算法,所介紹的算法應該是常見、易懂并且能夠很容易使用軟件實現的,如決策樹算法、K均值聚類算法、Apriori算法、樸素貝葉斯算法等。而針對比較難的算法,可以僅做介紹,讓學生在今后遇到此類問題能夠自主的進行學習。通過內容的調整,一方面使得學生不會因為數據挖掘算法繁多且復雜而懼怕,保證學生的學習興趣,從而很好的引導其自主學習,提高教學效果。另一方面,數據挖掘算法在不斷的改進,不可能在課程中覆蓋所有。通過基本算法和工具的結合,能夠很好地幫助學生從算法理論轉變成算法實現,從而真正的進行數據挖掘工作。即使出現了新的算法,也能夠舉一反三,進行軟件實現。
3.2 組織方式的改變
任務驅動探究式教學模式必須以課程任務為依托。改變以往以純理論的教學方式,加入實踐和課堂討論環節,將理論知識講解和課程任務有機地結合到一起。考慮到數據挖掘連貫性以及工程龐大性,可以考慮以項目化的方式進行。將學生6個人左右分為一組,自主的在老師所提供的數據共享平臺中尋找感興趣的問題進行分析研究。將整個項目分解成為數據搜集、數據預處理、探索性分析、數據挖掘、結果分析等一系列的小任務,安排階段性的任務目標,層序漸進,逐步的建立學生完成項目的信心并最終完成整個項目。
學生是項目的負責人,在接受一個短期任務后,就要自主的開始進行任務的執行。老師僅僅在課堂中進行了基本知識的講解,學生要完成任務就必須學習更多的課外知識。項目的研究內容是自己選擇的,而且完成階段性的任務并不是那么的遙不可及,所以學生有足夠的興趣和信心去完成。通過查閱資料、學習知識、任務分配、安排和組織實施等,完成教學任務的同時也鍛煉了他們團隊合作意識、溝通能力、自主學習能力。這些能力的培養才能使他們在知識不斷更新的當今,緊密地跟緊前沿技術并更好的去解決實際問題。
3.3 任務進度控制和評價
課程的課堂教學時間是有限的,老師不可能在課堂中既完成理論教學,又給足時間讓學生進行課程任務,所以項目的實施必須是在課后進行。學生要在課外進行大量的參考資料閱讀、相互討論及數據分析的工作。那么老師作為主導者,必須及時地了解學生階段性任務的完成情況,對當前學生遇到的困難及時給出建議和意見,甚至在學生遇到真正的難題給予技術上的支持。所以本課程在理論課教學的同時,也開展了定期的討論課,讓學生定期匯報階段性任務的完成情況,及時進行任務進度的控制。整個項目的實施流程和任務分解如圖1。根據流程安排,理論引導學生任務的進行。通過學生任務的完成情況,老師在完成基本理論教學的同時,有針對性的對學生所遇到的問題進行講解,最終目標是引導學生完成整個教學項目。一方面,學生自主學習能力提高,有足夠的興趣和能力去完成每個階段的任務,并且會更加認真的在理論課中尋找自己想得到的知識。另一方面,由于學生自主尋找的項目多樣性,選擇的算法不可控性,同樣促使老師不斷的提高自身,教學內容不再一成不變,而是隨時的更新。
圖1 任務進度安排流程圖
良好的進度控制需要一個完善的評價體系做輔助。只有做好每個階段性的評價,引入一定的競爭機制,才能提高學生積極性和自信心。首先,必須做到極端性任務的目標和時間明確化。要完成什么,在什么時候完成,都必須事先和學生約定。對沒有按時完成任務的組,必須做出相應的懲罰,如扣除本階段的得分。除此之外必須分析原因,搞清為什么無法完成任務,有針對性地提出建議和意見,以便學生能夠及時調整。其次,評價標準既要唯一又要區別對待。唯一標準指的是一樣的進度,一樣的任務,一樣的要求。但是數據挖掘項目會根據研究領域不同、使用算法不同、數據質量不同而造成難度差異,一味的同等標準要求會造成選擇難度較高項目的學生積極性下降。所以老師必須客觀的分析每個項目難度,并區別對待。對于由客觀難度造成任務進程落后的組,應當在解決問題后給予獎勵。并且,在最終論文評定時,適當的加入一定的難度分,以鼓勵學生培養自我挑戰的精神。通過教師評價、組長評價、組間評價等評價方式,客觀的合理的對整個項目實施作出最終的評價結果。
4 結束語
通過案例驅動探究式教學模式的改革,數據挖掘課程在教學效果上得到了實質性的提高。人才培養上卓有成效,老師也在教學過程中受益良多。通過教學模式的改革,使得原本枯燥、難懂的理論教學變得生動。學生的求知欲望得到了激發,課程的學習目標更加的明確,教學質量也有很大的提高。同時我們發現,學生的自主學習能力、匯報能力、論文撰寫能力都有了明顯的提高,并且有很多教學項目被用于畢業論文的研究。數據挖掘課程也因此被選為寧波市級的智慧產業核心引導課程。
參考文獻:
[1] 胡建軍.淺談數據倉庫與數據挖掘的本科教學[J].廣西科學院學報,2007(3):29-210.
篇7
大數據背景下的機器算法
專業
計算機科學與技術
學生姓名
楊宇瀟
學號
181719251864
一、 選題的背景、研究現狀與意義
為什么大數據分析很重要?大數據分析可幫助組織利用其數據并使用它來識別新的機會。反過來,這將導致更明智的業務移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯網和技術公司的支持下,大數據在2000年代初的數據熱潮期間出現。有史以來第一次,軟件和硬件功能是消費者產生的大量非結構化信息。搜索引擎,移動設備和工業機械等新技術可提供公司可以處理并持續增長的數據。隨著可以收集的天文數據數量的增長,很明顯,傳統數據技術(例如數據倉庫和關系數據庫)不適合與大量非結構化數據一起使用。 Apache軟件基金會啟動了第一個大數據創新項目。最重要的貢獻來自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數據準備和ETL的旗艦,可以為許多數據存儲或分析環境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發)通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。
隨著數據呈指數級增長,企業必須不斷擴展其基礎架構以最大化其數據的經濟價值。在大數據的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產系統非常昂貴且效率低下。要使用大數據,您還需要適當的人員和軟件技能,以及用于處理數據和查詢速度的硬件。協調所有內容同時運行是一項艱巨的任務,許多大數據項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業能夠勝過現有系統。
二、 擬研究的主要內容(提綱)和預期目標
隨著行業中數據量的爆炸性增長,大數據的概念越來越受到關注。 由于大數據的大,復雜和快速變化的性質,許多用于小數據的傳統機器學習算法不再適用于大數據環境中的應用程序問題。 因此,在大數據環境下研究機器學習算法已成為學術界和業界的普遍關注。 本文主要討論和總結用于處理大數據的機器學習算法的研究現狀。 另外,由于并行處理是處理大數據的主要方法,因此我們介紹了一些并行算法,介紹了大數據環境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數據量大的情況下算法和模型的關系,同時也會探討大部分細分行業數據量不大不小的情況下算法的關系。
三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)
1.視覺分析。大數據分析用戶包括大數據分析專業人士和一般用戶,但是大數據分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數據的特征,并像閱讀照片的讀者一樣容易接受。 2.數據挖掘算法。大數據分析的理論中心是數據挖掘算法。不同的數據挖掘算法依賴于不同的數據類型和格式來更科學地表征數據本身。由于它們被全世界的統計學家所公認,因此各種統計方法(稱為真值)可以深入到數據中并挖掘公認的值。另一方面是這些數據挖掘算法可以更快地處理大數據。如果該算法需要花費幾年時間才能得出結論,那么大數據的價值是未知的。 3.預測分析。大數據分析的最后一個應用領域是預測分析,發現大數據功能,科學地建立模型以及通過模型吸收新數據以預測未來數據。 4.語義引擎。非結構化數據的多樣化為數據分析提出了新的挑戰。您需要一套工具來分析和調整數據。語義引擎必須設計有足夠的人工智能,以主動從數據中提取信息。 5.數據質量和數據管理。大數據分析是數據質量和數據管理的組成部分。高質量的數據和有效的數據管理確保了分析結果在學術研究和商業應用中的可靠性和價值。大數據分析的基礎是前五個方面。當然,如果您更深入地研究大數據分析,則還有更多特征,更深入,更專業的大數據分析方法。
四、 論文(設計)的工作進度安排
2020.03.18-2020.03.20 明確論文內容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數據分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.
2 . 喻國明. 大數據分析下的中國社會輿情:總體態勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數據分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數據分析的分布式molap技術 .軟件學報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側大數據分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數據分析的輸變電設備狀態數據異常檢測方法 .中國電機工程學報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數”:2012年社會輿情運行態勢研究——基于百度熱搜詞的大 數據分析.編輯之友,2013.被引量:4.
六、指導教師意見
簽字: 年 月 日
七、學院院長意見及簽字
篇8
摘要:本文主要介紹了如何利用數據倉庫技術建立學生成績管理數據倉庫,應用SQL Server 2008中的聯機分析處理技術,從不同的維度觀察對成績有影響的因素,并通過建立決策樹挖掘模型對學生成績進行定性分析,用于指導學校決策者制定修改人才培養方案和指導學生更加有效的學習。
關鍵詞 :數據倉庫 數據挖掘 維度 決策樹
如今人們利用信息技術生產和收集大量的數據,要想高效地管理、組織這些數據并對其進行分析并不是一件易事。數據倉庫和數據挖掘技術在這方面得到了廣泛的應用,數據挖掘能從存放在數據倉庫中的大量數據中挖掘出隱藏的有用知識。
一、利用數據倉庫技術管理學生成績的意義
學生是學校的核心,其學習成績作為一種總結性評價,能反映出他們的知識掌握情況和相應知識技能的獲得情況。諸多高校的教務數據倉庫中對學生成績的評定分兩種:定量評價和定性評價。定量評價也就是分數,定性評價一般分優、良、中、差等四個級別。數據倉庫從定量的角度對學生成績進行分析,能精確得到各個方面的數據。因此使用數據倉庫和數據挖掘技術對學生成績進行深層的分析,挖掘出隱藏在數據背后的規律或模式,根據挖掘結構提出一些指導性建議,從而更好地指導教師教學,提高教學效率,提高學生的成績。
二、如何利用數據倉庫技術管理學生成績
在學生成績管理中有各種類型的數據,先要對這些數據進行預處理,使它們符合教學決策所需的數據,然后把學生成績分析作為本論文研究的主題創建學生成績數據倉庫,并從同一個班的不同門課程和同門課程在不同的專業與不同的教師教授下的效果比較進行分析研究。
把教務處的數據抽取出來后,通過還原數據庫還原到SQL Server 2008中,從里面挑選出有關學生、教師、課程信息等關聯的表(共計11個),把這些表導入到學生成績數據庫中。
該次課題必須保證所有的學生有課程平均學分成績,如該生辦理了退學或者休學手續,則刪除該生的所有信息,如該教師沒有擔任教學任務,則刪除該教師的相關信息。
例如,筆者使用了如下SQL語句來刪除無成績的學生記錄:
Delete from Cj_BjxsCJB where zcj is null
對數據進行篩選和連接,例如:
在學生成績(XsCj) 事實表里,筆者使用如下SQL語句:
Insert into XsCj
Select xnxqh, zcj,kcbm,xf,xs,kcbm,xh,kcxzcode,kcflcode,khfscode,jsbh
from Cj_XsCj where kcbm in (select kcbm from Curriculum)
and xh in (select xh from Xj_YxjJbxx )
在專業(ZhuanYe)維表里,筆者使用的SQL語句如下:
Insert into ZhuanYe
Select zybh,zymc,yxbh from Major
學生(Student)維表里的SQL語句是:
Update Student set bjbh=BanJi.bjbh
from BanJi where zybh in ( select zybh from BanJi, Xj_YxjJbxx
where BanJi.bjmc= Xj_YxjJbxx.bjmc )
在SQL Server Business Intelligence Development Studio開發環境中新建一個名為“學生成績”的SSAS項目,以數據倉庫“學生成績”為數據源新建數據源學生成績.ds、數據源視圖學生成績.dsv和多維數據集學生成績.cube。
該課題初步實現了在高校教學中數據挖掘技術的應用,但仍然有許多問題:在數據預處理方面工作量比較大,還不夠完善,需要找尋其他數據庫工具人工完成;在其他應用方面,學校教學管理中的許多領域還有待進一步探討,比如學生成績的分析、學生信息管理、學生心理分析、教學質量評估等。
參考文獻:
[1]陳文偉,黃金才.數據倉庫與數據挖掘技術[M].北京:人民郵電出版社,2004.
[2]Jiawei HAN,Mieheline Kamber.數據挖掘概念與技術[M].北京:機械工業出版社,2004.
[3]朱得利.SQL Server 2005 數據挖掘與商業只能完全解決方案[M].北京:電子工業出版社,2007.
[4]邱文教,潘曉卉.數據挖掘技術在教務管理中的應用[J].安徽工業大學學報(社會科學版),2006.
篇9
關鍵詞:數據挖掘;關聯規則;決策樹;教學;效果評估
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2010)01-143-02
The Application Research of Data Mining in Teaching
FANG Fang1, YE Chun-ming2, ZENG Guang-jun3
(1. Anhui University of Traditional Chinese Medicine, Hefei 230037, China; 2. Electronic Engineering Institute, Hefei 230037, China; 3. Communication and Command College, Wuhan 230037, China)
Abstract: This paper based on the theory of Data Mining, elaborates the two methods: association rule and decision tree, which applied to teaching practice. Research indicates that using association rule could do teaching situation prediction and teaching effect evaluation better. And Decision tree can give analysis and guidance in the aspect of thesis and course selection. Finally, this paper indicates Data Mining applied to teaching would be of vase prospects.
Key words: data mining ; association rule; decision tree; teaching; effect evaluation
1 概述
隨著高校教育信息化建設的發展,對于學生、教師資料,課程設置,考試成績等多種信息進行分析評估,對提高教學質量,加強高校管理,推進高校各項事業的建設有著重要的意義。經過近些年的發展,雖然各高校收集和建立起了較為完備的資料數據庫,但如何科學有效地分析這些海量數據,使其充分發揮指導決策作用,已成為教育信息化研究的方向之一。傳統的分析方法難以從這些數據中發掘出有用的信息。而利用數據挖掘技術,能夠方便高效地從大量數據中發現有用的信息和隱藏的規律,充分發揮資料數據庫的作用,為高校管理工作以及教師和學生的工作學習提供指導依據。
2 數據挖掘技術介紹
數據挖掘(Data Mining)是自上世紀90年代以來迅速發展的一門交叉學科,包含有人工智能、數理統計、神經網絡、數據庫、模式識別、粗糙集、模糊數學等技術學科的相關內容。一般認為,數據挖掘是從大量的數據中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規則[1],數據挖掘的過程有時也稱為知識發現或數據庫中的知識發現(knowledge discovery in database,KDD)。其基本功能包括分類(classification)、估計(estimation)、預測(prediction)、關聯分組(affinity grouping)或關聯規則(affinity rule)、聚類(clustering)以及描述和建檔(description and profiling)[2]。
數據挖掘的對象包含數據庫、文本、圖像等各種結構化或非結構化的信息,很多情況下無法直接對這些數據進行分析。利用數據挖掘進行分析一般需要進行如下的過程[3]。
1)選擇數據:數據挖掘過程所需的數據可能從不同的異構數據源獲取,因此首先必須從各種不同形式的數據源中獲取數據。
2)預處理:初始數據中可能會有一些偏差或不符合形式化處理的例外,對這些數據必須進行修正和剔除,以保證后期數據處理的正確性。
3)變換:對不同數據源獲取的數據必須轉換成統一的格式,利用編碼或其他方法簡化數據表示形式。
4)數據挖掘:對變換后的數據應用數據挖掘算法以產生期望的挖掘結果。
5)解釋/評價:將數據挖掘的結果以適當的方式提交給用戶。可以使用圖形化的工具或文檔表格的形式等。
數據挖掘技術在電信業、零售業、農業、金融業、生物醫藥、化工行業等多個領域已有較成功的應用,例如對于數據庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發現(Fraud Detection)等問題的分析等。數據挖掘主要的分析方法包括:關聯規則、決策樹、聚類分析、遺傳算法和神經網絡等,其中關聯規則和決策樹是使用頻率最多、范圍最廣的兩種方法。
關聯規則是用于揭示數據之間隱含的關系的一種數據挖掘方法,是數據挖掘最先研究的問題之一,也是數據挖掘的主要研究方向和最成熟的分析方法之一。關聯規則通過對數據庫中一組對象的關系進行分析,進而通過置信度和支持度的閾值篩選,得出被認為是有價值的規律或事實,典型的應用是購物籃分析,通過對銷售數據分析發現部分客戶的常用的購物習慣和規律。最經典的關聯規則算法是1994年由R.Agrawal, Hnielinski,Swam等人提出的Apriori算法[4],主要思想是生成特定關系的候選項目集,然后掃描數據庫并進行計數,以確定這些候選項目集是否滿足要求。
決策樹算法是一種用于解決分類問題的辦法[5]。決策樹通過對數據的歸納學習,構建一棵樹對分類過程進行建模,構建完成后,將其應用到數據庫中的元組并得到分類結果。樹的每個內部結點代表對一個屬性值的檢驗,分支代表檢驗的結果;樹的每個葉結點就代表一個類別。決策樹算法主要是用來對離散型變量進行分析,連續型變量必須被離散化后才能被分析[6]。最主要的決策樹算法是20世紀80年代由J.Ross.Quinlan提出的基于信息熵的ID3算法,但ID3算法對于大數據集的分析效果不令人滿意,后來出現的C4.5、C5、SLIQ、SPRINT等算法在ID3基礎上做了諸多改進,提高了算法的性能。
3 數據挖掘在教學中的應用
數據挖掘技術在商業領域已得到廣泛的應用,但在教育領域的應用尚處于研究試驗階段,研究應用較多的包括分析學生成績,改進教學質量,調整課程設置,輔助教學評價等等[7]。借助數據挖掘的方法,通過對收集的學生、教師、課程、成績等各類信息進行分析,尋找其中的規律、趨勢和問題,提供客觀科學的結論作為決策依據,能夠大大提高學校的教學管理水平,指導教師和學生的工作和學習。
3.1 關聯規則在教學中的應用
關聯規則可以描述為以下的形式[3]:給定一組項目I={I1,I2…}和事務數據庫D={t1,t2…},其中ti={Ii1,Ii2…}并且Iij∈I,關聯規則是形如X=>Y的蘊含式,其中X,Y?奐I是兩個項目集合,稱為項目集并且X∩Y=Φ。關聯規則的分析主要基于兩個數值:支持度和置信度。在關聯規則中,X=>Y的支持度表示數據庫中包含X∪Y的事務占庫中所有事務的百分比。X=>Y的置信度表示包含X∪Y是事務數與包含X的事務數的比值,對于X=>Y的支持度和置信度分別用s和a表示。
在教學數據的分析過程中,關聯規則使用于兩種類型的分析。類型一是進行預測性的分析,主要用于對學生的成績進行分析,類型二是進行評價性的分析,主要用于對教學效果的評估。利用數據挖掘技術進行分析一般分為三個基本步驟:建立數據倉庫,數據預處理和數據挖掘。下面以學生成績分析為例,描述關聯規則進行預測性分析的過程。
第一步是建立教學信息的數據倉庫。采集的數據內容主要包括學生的入學成績、基礎課程成績、專業課程成績,國家等級考試成績等等。為了提高分析結果的準確性,避免只通過成績進行單一的分析判斷,還應進行問卷調查等方式收集關于學生興趣愛好、擅長課程等數據內容,不同類型的信息分別組成各自的數據表。通過多種途徑建立內容全面的綜合數據倉庫,根據需要從中提取相應的數據進行分析。假定建立的數據庫為W={D1,D2,…},其中的Di為不同的數據表,內容分別是成績、調查內容等不同類型的數據。
第二步是對數據進行預處理。為便于數據挖掘分析,對采集的數據需要需求進一步進行處理,首先是刪除無效數據,例如校正錯誤信息,對缺考、無效調查結果等進行處理。其次,需要對不同類型的數據進行形式化處理,一般的方法是進行簡單的分類,例如成績按照“優秀、良好、集合和不合格”形式進行處理。如果數據庫W的內容較多,為提高關聯規則算法的執行效率,根據需要選擇部分表{Di1,Di2,…},其中Dij∈W,對這些表進行表連接等操作生成的待分析的事務庫D',并根據需求設定支持度s和置信度a。利用Apriori算法對事務集D'進行掃描,得出支持度不小于s的頻繁項目集D1'。
與一般關聯規則應用不同的是,在商業領域,支持度較小的項目集因其沒有商業利用的價值會被摒棄。但在教學領域,由于分析的對象是學生,即便是支持度很小的項目集也可能需要引起重視。例如,利用關聯規則入學成績和畢業成績的關系進行分析,類似{入學成績優秀,畢業成績優秀}這樣的項目集支持度可能較高。但{入學成績優秀,畢業成績不合格}這樣的項目集可能會因為支持度小于s被忽略。但如果對這一現象引起重視并深入分析,所反映的問題,可能比支持度較高的項目集代表的情況更有研究價值。但如果對所有這種非頻繁集進行分析,會影響算法執行效率,也可能得出很多無用的結論。解決辦法是對事務集分析之后,將大項目集的事務從數據庫中剔除,對生成的新事務庫D"進行二次分析,或直接對非頻繁集進行其他方式的分析[8]。
第三步是根據Apriori等算法進一步挖掘,在頻繁集D1'中,按照置信度為a的標準,生成最后的關聯規則表。按照算法進行分析,最后生成的都是支持度和置信度比較高的關聯規則,但仍需對其中的內容進行分析和篩除。對于一些常識性的、顯而易見的結論,如“入學英語成績高,平時英語成績好=>英語等級考試通過”這類結論一般不必進一步研究,但對其中發現的不常見的結論,甚至是有悖于一般看法的結論需要引起注意,并做深入的分析研究,從而找出現象背后的原因所在。
關聯規則還可以用于對教學效果進行分析。比類型一復雜之處在于,建立數據倉庫時,需要業務專家進行設計,采集較為全面的教師工作相關信息,以及自身資質水平、所學專業、執教經歷等等詳細資料,并結合類型一采集的學生信息數據庫,完成內容詳實的信息倉庫。分析的過程與類型一的分析過程基本相同。
3.2 決策樹在教學中的應用
決策樹算法可以描述如下[3]。給定數據庫D={t1,t2…},其中ti={Ii1,Ii2…},數據庫模式包含下列屬性{A1,A2,…}。同時給定類別集合C={C1,C2,…}。對于數據庫D,決策樹可表示為每個內部節點都被標記一個屬性Ai;每個弧都被標記一個謂詞,可應用于相應父節點的屬性;每個葉節點都被標記一個類Cj。通過訓練數據構建決策樹,確定每個元組的類別,并對所有元組的類別進行分析,得出需要的結論。決策樹主要用于對離散的數據進行分類,在教學方面能夠用來對學生課程的選修、畢業課題的選擇、就業等方面進行分析指導。
基于決策樹的分析可以使用關聯規則相同的數據源,但對數據仍然要進行預處理。為了方便處理,可以將數據統一成可描述為相同類型的屬性。例如,學習成績可以劃分為:優秀、良好、中等、及格和不及格五檔,分別用5、4、3、2、1數字進行表示。同樣,動手能力、對某課程的喜好、資格考試是否通過等等,也可以采取類似的方式進行屬性編碼處理,例如通過可以表示為5,不通過表示為1,以此類推。按照屬性的分類構造決策樹,以指導學生選擇課題畢業課題為例。以一門或多門相關課程的成績、對一門或多門相關課程的喜好、動手能力的區別、理論研究能力的區別,以及畢業課題的選擇等作為分類屬性,通過對往屆學生信息數據庫進行分析,得出關于畢業課題成績優秀的規則,例如最后生成“動手能力強,喜歡編程,C語言等課程成績較好,關于編程類的畢業課題成績較好”這樣的規則,通過對這些規則的整理和進一步的分析,可以幫助學生選擇適合的畢業課題類型,甚至對包括就業在內的其他問題也有較強的指導作用。
4 結束語
數據挖掘技術適合從各種復雜的數據中分析出直觀明確的規律,數據利用率高,運行成本低,預見性強,在高校教學中有著廣闊的應用前景,雖然現在較為成熟的應用還不多,主要停留在研究試驗階段,但隨著高校信息化建設的推進和人們認識的加深,數據挖掘技術將在高校管理和教學改革中發揮重要的作用。
參考文獻:
[1] Ming-Syan Chen, Jiawei Han, Philip S. Yu. DataMining: An Overview from a Database PersPeetive [J]. IEEE Transaetions on Knowledge and Data Engineering. 1996,8(6):866-883
[2] Jiawei Han,Micheline Kamber. 數據挖掘概念與技術[M]. 加拿大:機械工業出版, 2004.
[3] Margaret H.Dunham. 郭崇慧, 等譯. 數據挖掘教程[M]. 北京: 清華大學出版社, 2005.
[4] Rakesh Agrawal,Ramakrishnan Srikant. Fast Algorithm for Mining Association Rules [C]. Proeeedings of 20'Int.Conf. Very Large Data Bases (VIDB). 智利: Morgan Kaufmann出版社, 1994.
[5] ROKACH L. Top-down induction of decision trees classifiers-asurvey [J]. IEEE Transaetions on Systems. 2005(35): 476-487.
[6] 陳恩紅,王清毅,蔡慶生. 基于決策樹學習中的測試生成及連續屬性的離散化[J]. 計算機研究與發展, 1998,35(5).
篇10
關鍵詞:客戶分群;聚類分析;K-means算法
中圖分類號:TP311.13文獻標識碼:A 文章編號:1009-3044(2008)24-1123-03
Application of Data Mining in Telecom Customer Segmentation
LIU Yi-jun1, FU Han-yu1, CAI Qiu-ru1, HE Hui2, LUO Ye1
(1.Jiangsu Teachers University of Technology, School of Computer Sciences and Engineering, Changzhou 213001,China; 2.Changzhou Branch of Jiangsu Telecom, Changzhou 213003,China)
Abstract: The paper introduces the data mining topics and data mining models frequently used in telecom. A resolution of Customer segmentation is proposed based on the data mining tool KXEN and K-means method.
Key words: customer segmentation; clustering analysis; K-means algorithm
1 引言[1]
隨著電信體制改革的深化,電信業的競爭也日趨激烈。電信業是典型的數據密集行業,與其他行業相比,則電信行業擁有更多的有關用戶的數據。誰能正確地分析這些數據得到有用的知識,誰就能更好地向用戶提供服務,發現更多的商機,從而在競爭中獲勝。數據挖掘可以從大量數據中自動獲取有用信息或知識,因此數據挖掘在電信業中有重要的應用價值。
該文組織結構如下:第二部分分析了電信數據挖掘的若干主題及其相關的數據挖掘模型;第三部分介紹了客戶分群及其K-means聚類算法的實現流程;第四部分基于實踐經驗給出了建立電信客戶分群模型的解決方案。
2 電信領域的數據挖掘模型[2,3]
電信的數據挖掘應用開發,主要進行客戶分群、客戶流失分析、客戶發展分析、客戶行為分析等數據挖掘專題分析,逐步實現業務預測和信息挖掘等功能。
1)客戶分群:客戶分群將一個大消費群體劃分為一個個細分群體,同屬一個分群的消費者相似,而隸屬于不同分群的消費者被視為不同的群體。企業根據客戶提出的要求和實際所做的不斷地改善產品和服務,從而不斷提高該客戶群的滿意度。
2)客戶消費模式分析:從消費能力、消費習慣、消費周期等諸方面對客戶的話費行為進行分析和預測,從而為相關經營決策提供依據。
3)客戶市場推廣分析:利用數據挖掘技術實現優惠策略的仿真,根據數據挖掘模型進行模擬計費和模擬出賬,其仿真結果可以揭示優惠策略中存在的問題,并進行相應的調整優化,以達到優惠促銷活動的收益最大化。
4)客戶欠費分析和動態防欺詐:總結各種騙費、欠費行為的內在規律,并建立欺詐和欠費行為的規則庫。當客戶的話費行為與庫中規則吻合時,系統可以提示運營商相關部門采取措施,從而降低運營商的損失風險。
5)客戶流失分析:根據已有的客戶數據,建立客戶屬性、服務屬性、客戶消費情況等數據與客戶流失概率相關聯的數學模型,然后根據此模型來監控客戶流失的可能性,如果客戶流失的可能性過高,則通過促銷等手段來提高客戶忠誠度,防止客戶流失的發生。
6)大客戶的識別:企業的大客戶群體往往是利潤的主要來源。識別出大客戶,為他們制定有針對性的措施,提高大客戶的忠誠度,是電信運營商繼續保持領先的關鍵所在。此外數據挖掘工具不僅能夠根據現有的消費量的多少來判斷用戶是否為大客戶,還應該可以根據現有大客戶的資料,提取大客戶的特征,并發現潛在的大客戶。
7)客戶利潤分析:分析客戶的利潤分布情況,得到帶來不同利潤的客戶的具體特征。系統將客戶利潤分為高、中、低三種類型。用戶可以對高、中、低的具體情況進行設置。
表1總結了電信領域中可以應用的主要數據挖掘模型及其采用的方法。
3 基于K-means聚類的客戶分群[4,5]
客戶分群是根據一個或多個客戶屬性組合把所有客戶劃分成不同的類,同類內的客戶具有最大的相似性,異類間的客戶具有最大的差異性。
通過對客戶合理的類別劃分,并對當前客戶以及預期的客戶群作區段分析,判斷不同區段的突出特點,對客戶總體構成有準確的認識,對客戶的服務和營銷更具針對性。對客戶分群可以達到如下目標:
1)了解客戶的總體構成;2)了解各種客戶價值的客戶群體特征;3)了解流失客戶的客戶群體特征;4)了解客戶群體的消費特征;5)了解各信用等級的客戶群體特征。
數據挖掘技術中的聚類(Clustering)分析技術能夠被運用來從客戶基本庫中發現不同的客戶群,并且刻畫不同客戶群的特征,達到細分客戶群的目的。本文采用K-Means聚類模型進行客戶分群,主要因為K-means算法具有以下優點:1)能夠很好的解決給出數值型屬性的數據對象的聚類問題,經常以局部最優結束;2)對處理大數據集,該算法是相對可伸縮的和高效率的;3)對輸入數據順序的敏感度一般;4)雖然對處理噪聲數據的能力不高,由于電信的數據還算完整,可以通過數據預處理來彌補;5)該算法結果比較容易理解,建模速度也較快。
K-means處理流程以算法形式表示如下。算法的復雜度是0(nkt),其中,n是所有對象的數目,k是簇的數目,t是迭代的次數,通常k
輸入:結果簇的數目k,包含n個對象的數據庫。
輸出:k個簇,使平均誤差準則最小。
方法:
① 任意選擇k個對象作為初始的簇中心。② repeat。③ 根據簇中對象的平均值,將每個對象(重新)賦給最類似的簇。④ 更新簇的平均值,即計算每個簇中對象的平均值。⑤ until不再發生變化。
K-means算法嘗試找出平方誤差函數值最小的k個劃分。算法使得各聚類本身盡可能緊湊,而各聚類之間盡可能的分開。當結果簇是密集的,而簇與簇之間區別明顯時,它的效果較好。本文選擇這種算法建立數據挖掘模型,從而對客戶做初步的劃分,將含原始客戶信息的數據庫劃分成K個聚簇,使得同一簇中的對象是“相似的”,而不同簇中的是“相異的”。
4 實例研究
我們使用商業數據挖掘自動化軟件KXEN對常州電信客戶進行分群研究。KXEN軟件分群采用結構風險最小化的K-Means算法實現。我們選擇了營銷服務相對薄弱的小型商客作為目標客戶群,取得目標客戶群的近一年的相關數據。其中小型商客是指客戶有1-2門電話、小靈通的客戶,不包含已經安裝寬帶的客戶,有效小型商客為23074戶。基礎表涵蓋了以下數據:①用戶及客戶的基本信息:包括客戶身份信息、聯系方式、產品擁有情況、入網時長、服務開通情況、優惠套餐信息、客戶服務信息(投訴、咨詢、催繳情況)等;②價值信息:包括業務月租費、使用費、優惠費用及增值業務、新業務、信息費和卡類、結算費用、繳欠費信息等;③行為信息:包括時長、次數、跳次、發話不同號碼數、時長集中度、次數集中度等。
我們通過KXEN軟件對客戶價值(V)與客戶行為(B)進行多維分群,其中參加分群的V變量有21個,B變量有15個。首先根據價值維度的分群結果,計算出每個群的平均收入進行客戶價值分析:
ARPU=客戶群總收入/m
其中m為該群客戶人數,ARPU(Average Revenue Per User)為每用戶平均收入。
然后對行為B變量作Z分數。設某個客戶i使用產品j的時長是Tij,所有客戶使用產品j的平均時長為Tj。對于客戶i,其產品j的 分數為Zij=(Tij-Tj)/σj,其中σj為所有客戶使用產品j的時長標準差。單個客戶i使用電信所有產品的Z分數為Zi= Zij,其中n為客戶使用的產品數量。客戶群k的Z分數為Zk=( Zi)/m,其中m為分群k中的客戶數。
最后對V變量按總費用進行群排序,形成VB矩陣交叉圖。在組成的交叉矩陣中根據客戶數的多少選出SS1-SS8共8個戰略客戶群,共有客戶17128戶,占總客戶的比例為74.23%,接著對戰略客戶群進行特征分析。圖1是分群后的總體情況,圖2是分群矩陣圖,圖3是各群分布氣泡圖。
群分布氣泡圖
圖3中氣泡的大小代表客戶數的多少。SS7、SS8客戶群最大。橫軸方向越靠右,表明客戶價值越高。SS1、SS2、SS3群為高值的小商客,SS7、SS8為低值小商客。在橫軸的上下,表明客戶的消費趨勢值情況,在橫軸以下為下降趨勢,偏離越多,下降值越大。SS2群下降最多。SS1上升最為明顯。
下面以中值下降的SS6群為例進行分析(限于篇幅,僅給出競爭特征的圖表)。
1)總費用特征
該群屬中值群,客戶數1964,占總中小商業客戶的8.5%,客戶ARPU為 93.35元;總體費用下降趨勢為-5.28元,為各群次低;總費用趨勢上升的客戶比例極少。總費用前半年均值106元,前半年趨勢基本平穩。
2)長話特征
該群用戶長話費均值為9.97元,占總費用的比例為11%,相對較低。長話費用月均下降1.96元,為各群次高。長話費用高于50元的和長話費上升的客戶比例都很低;使用傳統長話的客戶各群中比例最高。另外,該群用戶長話使用量很少,且主要使用傳統長途,傳統長話占長話比例最高;長話費12個月均呈下降趨勢。
3)市話特征
該群用戶市話費用均值為中值,為41.67元,月平均下降3.53元。區間費用的均值2.92元,區間費用趨勢月下降0.37元。
4)競爭特征
結合圖4分析可得,該群客戶也有較明顯的卡類業務使用習慣,主要使用他網卡類業務,但是下降趨勢最為明顯。
5)其他特征
該群用戶的窄帶上網信息費也在下降,優惠費用均值為13元,為各群中次低。套餐用戶較少。
綜上可得SS6群特征如下:
a.該群為中值下降群,ARPU值為93.35元。總費用趨勢下降較明顯,月均下降5.28元,各項費用均呈下降趨勢。
b.該群客戶為長話低值客戶,長話主要使用傳統長途。
c.使用他網卡較多,但他網IP卡下降趨勢明顯。SS6群使用非電信卡消費均值最高,長話流失嚴重。
針對上述情況,擬采用的營銷策略是用超級IP、商務行、17908卡等有針對性地開展策反工作。
5 結論
數據挖掘可以對大量數據進行自動分析,幫助我們去學習新的潛在模式。聚類分析能夠為我們解決客戶分群問題,從而應用于電信目標市場營銷。本文使用數據挖掘工具KXEN,采用K-means方法給出了一個電信客戶分群的解決方案。實踐證明本文提供的電信目標市場營銷客戶分群的解決方案是成功有效的。
參考文獻:
[1] 廖里,余英澤.數據挖掘和數據倉庫及其在電信業中的應用[J].重慶郵電學院學報自然科學版,2000(4):34-37,81.
[2] 宋威.江蘇電信數據挖掘專題分析報告[J].江蘇電信,2004.6.
[3] 陶露菁.基于數據挖掘的電信客戶分群設計和實現[D].南京大學碩士學位論文,2005.06.
[4] 鄧曉梅.基于數據挖掘的電信客戶細分模型研究[D].大連理工大學碩士學位論文,2006.10.
[5] 韓家煒,Kamber M,著. 數據挖掘:概念與技術[M].范明譯.北京:機械工業出版社,2001.