統計學數據挖掘實驗教學探索

時間:2022-11-08 08:45:29

導語:統計學數據挖掘實驗教學探索一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

統計學數據挖掘實驗教學探索

摘要:大數據時代,數據分析各環節的變化對統計學專業人才培養模式的變革起到了催化作用.數據挖掘作為拓展和提升大數據分析方法與思路的應用型課程,被廣泛納入統計學本科專業人才培養方案.本文對大數據時代數據分析師的職業需求進行了調研,在此基礎上提出了基于R語言的項目式數據挖掘實驗教學模式.教學實踐結果表明,通過項目式學習,可以讓學生在掌握理論知識的基礎上,進一步提升分析問題和解決實際問題的能力,進一步適應大數據時代數據分析師的職業要求.

關鍵詞:統計學;數據挖掘;實驗教學;數據分析師;項目式學習

1引言

2016年美國統計協會(AmericanStatisticalAsociation)對統計學的內涵給出一個較為簡潔的說明,將統計學定義為:“thescienceoflearningfromdata”,即從數據中學習的科學[1].該定義實際上與數據科學(DataScience)的內涵如出一轍.筆者以為ASA之所以對統計學做出這樣的內涵解釋,實際上表明在大數據浪潮中,統計學正走在變革的道路上.大數據時代,數據的產生、收集、分析與應用等環節都發生著深刻的變化.互聯網技術的高速發展使每個人成為數據的生產者,數據生產已經突破了時間、地點的限制,數據量也由抽樣數據向大數據轉化;數據的存儲類型由紙和筆記載的關系型結構化數據向半結構、非結構和異構的網絡數據類型轉化;數據的采集由根據統計分析目的的調查式收集向基于大數據技術的自動化采集方法轉化;數據的分析由傳統的驗證型分析方法向探索型分析方法轉化;數據的應用由輔助管理決策向引導變革轉化.以上變化正在重塑數據分析流程,而數據分析模式的變革必然引起教育模式的改革.事實上,在大數據洪流的沖擊下,統計學專業的人才培養模式已經悄然發生變化.當前,統計學專業融合大數據、計算機、人工智能等相關學科知識,引導學生認識和掌握數據處理的新技術,推動交叉學科應用型人才的培養,已經成為共識.其中,在統計學專業課程體系中引入數據挖掘課程就是典型的代表.數據挖掘技術在一定程度上彌補了傳統統計分析方法的不足,可以進一步增強學生探索性數據分析的能力,更加適應大數據時代的需求.與統計學強調推斷理論和方法不同,數據挖掘強調經驗,著重于從數據中挖掘有用的模式和價值,只要能夠有效地解決問題,方法和模型本身并不重要.因而,筆者認為數據挖掘課程能夠拓展統計學專業學生數據分析的思路和方法,進一步加深對數據分析內涵的理解.由此,本文致力于探索大數據背景下統計學專業數據挖掘實驗課程教學模式,以提升統計學人才實踐應用能力,使其不斷適應大數據分析的需求.

2大數據時代市場對應用型統計人才的新需求

數據分析師是統計學專業大學生畢業后的主要職業選擇之一.數據分析師是指在不同行業中,專門從事數據搜集、整理、分析,并依據數據做出行業或市場研究、評估和預測的專業人員;是以實際數據為依據,對項目現狀及遠期進行統計、分析、預測并轉化為決策信息的專業人才[2].為了客觀分析大數據時代應用型統計人才需具備的知識、能力和技術,本文通過智聯招聘網對企業公布的數據分析師職位招聘信息進行了調研,這些招聘信息都是面向應屆本科畢業生的,具有較強的針對性,調研時間為2018年8月3日.本文調研了七家上市公司[3],有國企事業單位、互聯網公司、金融公司、網絡游戲公司、網絡媒體公司等,各公司對數據分析師的崗位職責、知識要求、能力要求和技術要求見表1所示.從數據分析師的崗位職責來看,不同類型的企業雖然具體要求不同,但是核心職責是相同的,主要有三個方面:負責業務部門的數據需求分析,也就是通過調研了解業務部門的需求,確定數據分析對象和目的;構建業務數據分析指標體系,即如何開展數據分析工作,確定數據采集、處理和分析及結果解讀等環節的指標、方法、模型及數據分析工具等;為業務部門提供數據決策支持,包括撰寫調研報告、數據分析報告及設計數據產品和開發數據分析工具等等.從崗位職責的核心要素來看,數據分析師是非常契合統計學專業的人才培養目標的,從調研到設計到分析到結果解讀,是數據分析的一個完整流程.但是,也可以看出很多企業在數據分析中特別強調了數據挖掘方法,如北京計算機技術及應用研究所強調用戶行為挖掘和個性化推薦、金融界強調用戶行為數據和網絡日志數據挖掘,而這些都不是傳統統計學分析方法的范疇.從知識要求來看,大部分企業都要求數據分析師具有統計學專業背景,但互聯網公司特別強調統計學、數學和計算機的交叉和融合.實際上,數據分析師作為復合型人才,除了掌握必要的統計分析理論和方法外,數學建模和編程能力都是必不可少的.從能力要求來看,較強的數據敏感度和清晰的邏輯思維能力是核心要素.其次,從業務來看,數據分析師需要同不同的部門打交道,溝通協調能力和團隊協作能力也是必不可少的.從技術要求來看,大部分企業都要求數據分析師至少要掌握一種統計分析軟件,如SPSS或MATLAB;至少要熟悉一種編程語言,如Python或R;至少要掌握一種數據庫技術,如MySql/Oracle/SQLServer等,最簡單的是excel.在高校及商業統計分析領域,R語言是當前最受歡迎的統計編程語言之一.綜合以上分析可以得出,統計學專業的學生要想成為出色的數據分析師,除了具備堅實的統計學理論和方法外,還需要具備良好的計算機能力,如數據庫技術和編程能力.更重要的是,數據挖掘方法與技術作為大數據技術的基礎已經成為數據分析師必備的技能,也是企業招聘時重點關注的技術.

3基于R語言的項目式數據挖掘實踐教學模式探索

R是一套完整的數據處理、計算和制圖軟件系統.其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計制圖功能;簡便而強大的統計編程語言.特別是,R是免費、開源、全面、可視、交互的專業統計分析和數據挖掘軟件.通過R的相關集成開發環境(IDE),如RStudio/PyCharm等,用戶可以輕松訪問數據庫,并利用一些集成的統計工具,靈活機動的進行數據分析,構建屬于自己的統計分析項目(Project),甚至創造出符合需要的新的統計計算方法.因此,R受到了教育界的熱捧,成為大學生最喜歡的統計分析與數據挖掘軟件之一.此外,2018IEEE頂級編程語言交互排行榜中,R語言排名第七,是過去十年中發展最快的編程語言之一,也是最好的數據科學語言之一[4].由此,筆者認為,R語言是統計學專業學生進行數據分析的不二之選.項目式學習(project-basedlearning,以下簡稱PjBL)是一種以學生為中心的系統教學方法或模式,讓學生圍繞來自項目中的現實工作任務來學習知識和技能,并認真地設計產品和任務[5].其中,項目是指復雜的任務,學習者為了完成項目目標,需要展開調查、參與設計、解決問題、制定決策等[6].項目式學習最大的亮點是通過完成項目的形式,發揮學生學習的主動性和自覺性,在做中學,在學中做,有利于提高學生學習效率,提升學生實踐和創新能力.基于以上分析,筆者認為在R軟件的集成開發環境下,實施數據挖掘實驗課程的項目式學習方案是可行的,也符合應用型統計人才培養目標的定位.下面將從數據挖掘實驗課程教學計劃、實驗項目設計、考核方式、典型項目示例和實驗教學效果進行論述.3.1課程教學計劃.數據挖掘是一門多學科交叉且實踐應用性較強的課程,一般是在碩士研究生階段才開設的課程.在本科生階段開設數據挖掘課程具有較大的難度,需協調好相關課程的前后邏輯,如該課程必須開設在概率論與數理統計、數據庫原理、計算機基礎等課程之后.作為應用型本科院校,巢湖學院數學與統計學院于2016年開始在統計學本科專業開設數據挖掘課程,課程性質為專業核心能力課程,總學時52,理論課學時40,實驗課學時12.理論課與實驗課的安排如表2所示.由于統計學專業學生未將R語言的學習列入人才培養方案,所以在理論課階段安排了8個學時的R語言學習,目的是在進入正式的數據挖掘項目學習之前,熟悉R的數據組織、整理和可視化方法,教學方法為講練結合、學生邊聽邊實踐操作.從模式識別的角度來看,數據挖掘技術的主要任務,包括分類、聚類、回歸、關聯、序列分析和偏差分析6種模式的識別[7].其中,回歸是統計學的傳統分析方法,時間序列分析方法在人才培養方案中有專門的《時間序列分析》課程.因此,本課程主要選擇了分類和聚類這兩類方法,分類選擇了近鄰分析法和支持向量機,聚類主要有k-means聚類和基于密度的聚類方法.另外,人工神經網絡作為人工智能的熱點研究領域,也納入本課程學習中,可以作為深度學習的入門知識.3.2實驗項目設計.在實驗教學中,本課程圍繞K近鄰分析、支持向量機、k-means聚類和人工神經網絡四個主要的算法設計了四個綜合性的開放性實驗項目.實驗教學過程采取項目學習式教學模式,授課教師只是提出實驗的問題和實驗的目的,并不規定嚴格的實驗步驟和過程,教師根據理論課所講授知識及時引導學生,讓學生根據實驗問題和目的,自行設計實驗內容和實驗過程,包括數據采集、數據預處理、模型與方法選擇、基于R軟件的數據分析過程、結果的可視化與分析等.在實驗過程中,教師指導學生組成實驗項目小組,一般由3名學生共同組隊,通過小組討論、相互協作共同完成實驗項目.經過教師的指導,使每個實驗項目小組在3個課時的時間內,確定實驗內容和項目實施計劃,實驗實施過程可在課后完成.實驗項目結項方式為小組成員共同完成項目實驗報告,項目實驗報告內容包括實驗目的、實驗內容、實驗過程、結果分析和實驗總結.3.3考核方式.數據挖掘作為考查課,考核方式比較靈活,也給課程組進行考核方式改革提供了便利.課程組經過研討決定采取開放性課程設計的方式作為期末考試的形式,并結合平時課程表現和平時實驗項目完成情況評價綜合成績.其中,期末的開放性課程設計成績在綜合成績中占比60%,平時課堂表現和平時實驗項目完成情況占比40%(課堂表現占40%,平時實驗項目完成情況占比60%).3.4典型實驗項目教.學示例-以基于R的K-近鄰分析為例K-近鄰分析法(K-nearestneighbor,KNN)是分類型數據預測的經典數據挖掘方法,在輸入變量較多,樣本量較大的情況下,是簡單而有效的建模方法[8].課程組設計了鳶尾花數據集(IRIS)的分類預測實驗項目.3.4.1問題提出.利用已有的鳶尾花數據集(IRIS),通過K-近鄰分析法對新的鳶尾花數據進行分類預測,要求構建合理、具體的模型,基于R軟件實現模型的訓練和預測.3.4.2項目提要.請同學們根據實驗問題,設計實驗內容.一些實驗要點供同學們參考:a.如何利用R軟件掌握鳶尾花數據集(IRIS)的特征?提要:str()函數可以查看數據集的變量和數據;scale()函數可以實現數據的歸一化處理.另外,請同學們自行查閱資料了解R軟件數據預處理的方法.b.K-近鄰分析法中距離的選取依據是什么?提要:K-近鄰分析法將樣本包括的觀測數據看成是p維特征空間(變量個數為p個)中的向量,應選擇合適的距離度量方法,以測度預測向量X0與鄰居向量X之間的距離,作為鄰近關系的依據.主要的距離度量方法有:閔可夫斯基距離、歐氏距離、絕對距離、切比雪夫距離和夾角余弦距離.請同學們查閱資料分析各種距離度量方法的適用范圍,并確定鳶尾花數據集(IRIS)適用的距離度量方法.c.K-近鄰分析法中K值選取的依據是什么?K-近鄰法的核心問題之一是確定預測向量X0的鄰居個數,即K值的確定.一般可以依據以下方法:一是依據旁置法計算參數K取不同值時的預測誤差;二是依據留一法計算參數K取不同值時的預測誤差.請同學們查閱資料,是否還有其他更好的K值確定方法?3.4.3R軟件操作提要.R實現K-近鄰法的函數是class包中的knn函數.可通過install.packages(‘class’)加載class程序包,并使用library(class)載入到工作空間中,可通過help(knn)查看knn函數的使用方法.3.5實驗教學效果.通過一個學期的實驗教學來看,本文提出的基于R語言的項目式數據挖掘實驗教學模式取得了較好的教學效果.從學生的綜合成績來看,成績分布合理,不及格率較低,大部分學生的綜合成績分布在70-89這個分數段內,說明學生對數據挖掘的基本理論和應用技術掌握的較好.從平時實驗項目的完成情況來看,大部分小組能夠較好的完成實驗項目.對于項目式教學模式,不少同學反映比單純的輸出式教學模式效果好很多,不但增強了學習的主動性和積極性,而且增強了團隊合作意識,廣受學生歡迎.但是在實踐教學過程中,也出現了很多問題.例如,在課程教學初期,學生普遍反映R語言的入門難度較大,希望教師能夠在R語言學習方面給予更多的建議和支持;在項目式學習過程中,出現了實驗完成效果參差不齊和個別學生過于依賴小組其他成員,從而坐享其成的情況.筆者認為,任何教學模式都不是完美的,這些問題還需要任課教師結合學生學習實際拿出解決方案,這也是筆者在下一階段的教學過程中重點思考的問題.

4總結

數據挖掘作為一門多學科交叉且應用性較強的課程,在教學內容和教學方法上與傳統統計學課程有較大的區別.但是,從數據分析的流程來看,數據挖掘方法與傳統統計分析方法又有相通之處,關鍵是讓學生了解二者之間的區別與聯系.因此,在數據挖掘實驗課程教學中,本文基于大數據時代企業對應用型統計人才的需求,采取了基于R語言的項目式數據挖掘實驗教學模式.通過項目式學習,讓學生在掌握理論知識的基礎上,探索解決實際問題的能力,進一步提升數據分析能力,以適用大數據時代數據分析師的職業要求.

作者:關鵬 錢云 張海永 單位:1.巢湖學院 2.滁州學院