數據科學下“多元統計分析”課程改革
時間:2022-07-07 16:30:56
導語:數據科學下“多元統計分析”課程改革一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:文章面向大數據時代統計學科發展的趨勢,探討了在數據科學視角下“多元統計分析”課程教學改革舉措,提出與數據科學相互借鑒、相互滲透的頂層設計思路,以及融合統計模型與機器學習算法的教學內容組織,從而培養具有數據科學視野的復合型統計分析人才。
關鍵詞:多元統計分析;數據科學;頂層設計;教學改革
“多元統計分析”課程具有較強的理論性及廣泛的應用性,如何教好這門課,讓學生了解多元統計的思想、掌握現代多元統計的方法,并在大數據、人工智能蓬勃發展的新時代熟練應用多元統計知識,是一個值得任課教師深思的課題。近年來,多位教師從教學理念、時代背景、目標導向等角度進行了有益的探討。例如,以OBE理念為指導,從教學目標、教學設計與教學考核評價等方面改進“多元統計分析”課程教學[1]。瞄準計算機技術的發展,便于從課堂講授內容、案例教學、編程實踐訓練、模型評價與優化等多個環節進行“多元統計分析”課程教學內容與教學方法的改革與實踐[2]。針對“多元統計分析”課程實驗教學的不足,淡化理論教學,注重案例教學并利用前沿的統計軟件輔助“多元統計分析”課程的教學改革[3]。為突出實驗教學的重要性,將實踐教學融入理論教學,通過實驗課程驗證理論,通過綜合性實驗深化理論教學,運用設計性實驗強化理論和實踐的結合[4]。在課程資源建設方面,有研究提出以學生“學”為中心,以學習成果為導向,設計以學生為中心的課程教學方法,構建以學生為中心的課程學習資源和案例教學策略[5]。這些教學改革實踐為本文工作提供了有益的參考。隨著大數據、云計算、物聯網以及人工智能等信息技術的迅猛發展,人類社會進入了“第四次工業革命”的新時代,筆者從事“多元統計分析”課程教學工作多年,深切感受到“多元統計分析”課程應擁抱新時代,與數據科學相互借鑒、相互滲透融合,并在教學理念、教學內容、教學手段上進行改革創新。
一、“多元統計分析”課程教學改革頂層設計思路
在數據科學迅猛發展的新時代,統計數據分析面臨以下新問題。(1)數據規模。傳統上,統計分析主要處理中小規模、中低維度的離線數據集,大數據處理主要面向大規模、高維度的數據集,且多為機器或程序自動生成的動態數據。(2)處理原則及方式。傳統上,統計分析依賴于先驗假設,傾向于建立精準的統計模型,并強調統計模型的合理性和擬合度。大數據處理則強調對流數據的實時處理,以及擴展性好、復雜度低的快速近似模型及算法,更看重模型的泛化能力和應用效果。另外,對高維數據,一般還需要進行特征工程及降維等預處理。國內“多元統計分析”課程比較注重教授數理統計的基礎知識,突出統計建模的科學性和可解釋性,然而,傳統的統計理論與方法難以應對當今對海量數據的實時處理和可擴展需求。筆者提出“以時代發展為導向、以學生為本、以融合創新為抓手”的教學理念,以期對“多元統計分析”課程教學改革進行頂層設計。
(一)順應時代需求
樹立“以時代發展為導向、以學生為本、以融合創新為抓手”的教學理念,在課程介紹的時候引入大數據、數據科學、機器學習等概念,讓學生一窺數據科學前沿及統計分析的定位。例如,在當今信息化時代,大多數學生對于統計學習、機器學習、人工智能等數據科學中相關部分知識特別感興趣,可以因勢利導地在教學過程中講解多元統計方法與這些熱點技術之間的聯系與區別,讓學生認識到人工智能是計算機科學的一個子領域,統計學習和機器學習都是人工智能的實現方法。
(二)引導學生主導學習
進一步豐富課程考核體系和評價標準,并鼓勵學生積極主動地融入課堂,允許學生自由組成3~5人的小組,并以小組答辯的形式完成課程實驗報告;引導學生參與教學內容相關的課外活動,進一步鍛煉學生的學習、思考、動手、協作和表達能力。這些都將對學生就業和進一步專業學習深造帶來正向影響。
二、融合統計模型與機器學習算法的教學內容組織
在“多元統計分析”課程教學改革中,許多研究人員提出了要加強統計方法應用的教學,強調要“學以致用”,并引入統計軟件,以及編程語言等內容[3-4],但仍局限于這些統計軟件或編程技術在傳統多元統計模型與方法中的使用。筆者基于“以時代發展為導向”的理念,補充了機器學習相關模型與算法,讓學生得以對某類問題的解決方法一窺全貌。例如,筆者在講授“判別分析”單元時,會指出“判別分析”要解決的問題在信號分析課程中一般稱為“模式識別”問題,在數據挖掘課程中一般稱為“分類”問題,而在機器學習課程中一般稱為“有監督學習”問題。針對不同的學科領域一般采用的處理方法有參數辨識方法、決策樹方法、神經網絡方法、貝葉斯網絡方法、K近鄰方法、支持向量機以及集成學習方法等。當然,限于學時,只能簡單介紹一下這些方法的背景、特點、適用性、應用案例及性能以及可擴展性等。與此同時,推薦相關的課外學習資料,鼓勵學有余力或感興趣的學生課后深入探索。又比如,在講授“系統聚類法”單元的時候,會指出“系統聚類法”是數據挖掘課程里“聚類”方法或者機器學習課程里“無監督學習”的其中一種,其他常用的聚類方法還有:K均值方法(基于劃分的聚類方法之一)、密度相連方法(基于密度的聚類方法之一),而系統聚類法本身則是基于層次的聚類方法之一。通過補充數據科學相關課程的相關知識點,力圖為學生勾畫一幅多元統計分析經典方法及其相關方法的全景圖,總結數據科學過程和最重要的機器學習算法,讓學生可以全面了解數據科學應用過程以及數據科學的技術進展,并能針對具體問題選擇正確的模型和方法。
三、豐富完善課程實驗和課程考核體系
針對“多元統計分析”課程教學改革,許多學者雖討論了如何強化實踐教學環節、強調了案例教學[2-3,5]、引入數據科學方面的競賽題目,完善教學考核評價體系等舉措[1-2],但較少涉及學生團隊精神及協作能力的培養,學生的實踐也并未真正地走出課堂。本文基于“以生為本”的理念,在實踐環節的設計和實施上充分考慮辯證思維、創新能力以及團隊協作的鍛煉,讓學生體驗主動學習的樂趣和效果。
(一)設計小組實驗
大量實踐表明,小組合作學習更能突出學生的主體地位,培養其主動參與的意識,在激發學生求知欲的同時,又為學生提供了一個較為輕松、自主的學習環境,提高了他們創造思維的能力。在“多元統計分析”課程作業設計中,首先,可有意識地弱化傳統的理論推導和計算題,補充一些來自實際應用的、數據量比較大的數據分析題。這些題通常需要教師進行缺失值、離群點甚至標簽錯誤之類的預處理。其次,針對一些探索性數據分析及必要的特征工程,在確定合適的模型及算法后再進行大量的模型驗證和模型測試。最后,進行可視化工作,把模型結果和結論一目了然地展現出來。學生可以按興趣匹配度和知識互補性自由組隊并進行分工,但每隊限制在3~5人。
(二)鼓勵學生參與學科競賽
近年來,國內涌現了大量優秀的數學建模、數據分析、大數據和智能計算競賽平臺,如中國工業與應用數學學會主辦的全國大學生數學建模競賽、中國計算機學會主辦的大數據與智能計算競賽、全國統計教學會主辦的全國大學生統計建模大賽、阿里巴巴集團主辦的天池大數據競賽等。很多競賽題目均來自企業界的實際問題。這些競賽活動對學生了解企業需求與實際應用、增強業務理解與建模等綜合能力的提高有極大地幫助。經過課堂小組實驗鍛煉,學生對這些競賽的內容及形式不再陌生。
(三)引導學生投身“雙創”
我國正處于經濟轉型關鍵時期,以創新謀發展是必由之路。政府也號召“大眾創業、萬眾創新”,從早期的大學生挑戰杯,到現在的互聯網+大學生創新創業大賽,旨在深化高等教育綜合改革,激發大學生的創造力,培養造就“大眾創業、萬眾創新”的主力軍;推動賽事成果轉化,促進“互聯網+”新業態形成,服務經濟提質增效升級;以創新引領創業、創業帶動就業,推動高校畢業生更高質量創業就業。筆者因勢利導,引導學生利用所學的多元統計分析知識,結合國民經濟特定行業特定領域的統計數據進行建模,以此為基礎申報“雙創”課題,投身到“大眾創業、萬眾創新”的時代洪流當中。
四、結論
在大數據、人工智能時代,統計學科需要主動擁抱變化,與數據科學進行融合,并在教學內容、教學手段等方面進行相應的改革,從而培養具有數據科學視野的復合型統計分析人才。經過近幾年的實踐,學生在學科視野、知識面、專業技能、動手能力方面有了較大地提升,更踴躍地參加各種相關競賽活動和課外實踐活動,逐漸成長為社會亟須的畢業生。
作者:鄭國慶 夏強 夏英俊 單位:華南農業大學
- 上一篇:分眾教學在思想政治混合式教學中運用
- 下一篇:大學物理課程混合教學模式改革研究