高等教育事業統計數據挖掘思考

時間:2022-06-13 10:10:35

導語:高等教育事業統計數據挖掘思考一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

高等教育事業統計數據挖掘思考

摘要:基于目前我國高等教育統計分析中存在數據更新速度緩慢、數據分析滯后、數據反饋率低等問題,運用大數據思維,將大數據思維與小數據研究相結合,重點關注數據挖掘技術在高等教育統計數據中的運用。對比國內外研究現狀,提出我國高校存在對數據挖掘重視度不高、數據挖掘技術在高等教育統計數據中的運用不充分、適應于高等教育教師與學生特點的數據挖掘技術應用欠缺等問題,并提出了解決的方案。

關鍵詞:教育統計;大數據;數據挖掘

目前,我國每年教育事業統計工作要求調查指標1.6萬項,涵蓋范圍為全國50多萬所各級各類學校和機構,數據量高達55億條[1]。其中,高等教育統計是我國教育事業統計工作的重要組成部分之一,每年10月份開始通過單位收集、層層上報的方式匯總[2]。面對采集的海量數據,如何將其有效利用,轉化為指導高校建設、高等教育管理的參考依據是亟待解決的問題。

一、我國高等教育統計數據分析現狀

2015年教育部對1991年的《中國教育監測與評價統計指標體系(試行)》進行了修訂和完善,修訂后的指標體系分為綜合教育程度、國民接受學校教育狀況、學校辦學條件、教育經費、科學研究等5類共102項指標,其中涉及高校的指標為54項[3]。教育主管部門和各學校力求管理好數據、分析好數據、利用好數據,覆蓋采集、統計、分析、診斷、決策等全流程,以便更好地為領導決策服務、為學校發展服務。從拍腦袋決策到用數據說話,統計數據在教育管理中意義重大。但各高校在具體統計過程中,普遍存在機械上報的情況,缺乏適應性微觀統計指標設計。同時,對已統計數據缺乏深入分析,大部分僅停留在簡單描述和說明上,并未真正發揮統計數據的反饋作用,數據利用率較差。其主要表現在以下幾個方面:一是高校的教育統計多數是被動地完成報表任務,數據統計人員多是兼職的,服務方向依然是以為上級服務為主,教育統計仍以搜集整理內部數據為主,未能主動地根據教育管理需要進行采集,把統計與學校工作相結合,把統計信息自覺地用于決策和日常工作。二是目前統計的口徑較多,每年度都有高等教育事業統計、教學基本狀態數據采集、固定資產投資報表等各級各類報表,上級下達的歸口部門不同,時間節點的要求也不一樣。這導致學校不同部門給出的數據出入很大,也有學校為了應對檢查和評估,捏造數據,使得統計數據失真。三是數據統計之后基本上停留在數據階段,分析數據、利用數據進行決策的意識和能力很弱。

二、大數據思維導入

2012年聯合國的《大數據發展:機遇與挑戰》中明確指出,大數據時代已經來臨,大數據的出現將會對社會各個領域產生重要的影響[4]。近年來,我國高度重視大數據研究,2015年,中共十八屆五中全會首次提出“實施國家大數據戰略”,將大數據戰略正式上升為國家戰略;2016年,“十三五”規劃綱要對大數據戰略進行進一步細化,提出方向性目標和任務;2017年,中共報告提出要“推動互聯網、大數據、人工智能和實體經濟深度融合”。簡單來說,大數據思維就是把一切可記錄的事實都作為數據并從中尋找有價值信息的思維[5]。主要體現在以下四個方面。第一,非結構化數據也是數據。大數據的數據來源更為多樣,相比傳統統計學中數據通過簡單測量記錄的方式采集,大數據的“數據化”方式使得非結構化數據提取成為可能,為更加客觀分析反饋結果提供有力支撐。第二,數據是動態變化的。不同于一次性的靜態數據,大數據會因數據更新而發生動態變化。例如,我國每年的教育統計工作會得到大量的數據,但其作為一次性調查,無法實現數據的實時更新和跟蹤比較,使得數據分析存在滯后性,無法精確給予政策支持和建議。第三,數據樣本等于數據總體。大數據強調要分析與事物相關的所有數據[6],增大數據覆蓋面,將“假設—驗證”轉變為“發現—總結”[7],實現數據全面匯總,不遺漏個體化特征數據。第四,數據通過挖掘才有價值。大數據的數據容量大且繁雜,并非所有數據都是有效數據、都能直觀呈現出相關性。故需要根據分析目的,運用數據挖掘技術,剔除無用、虛假、錯誤的數據,從而獲取有價值的信息。將大數據思維運用到我國高等教育統計數據分析中,可有效解決數據更新速度緩慢、數據分析滯后、數據反饋率低等問題,但并不代表大數據就完全取代小數據研究。首先,大數據體現的相互關系就是由眾多小數據綜合而成的;其次,加強小數據研究,能較好地篩除無效數據,從而促使大數據研究結論更為準確。因此,我們要基于大數據研究小數據,基于小數據挖掘大數據[5]。

三、我國高等教育數據挖掘現狀

(一)教育數據挖掘。數據挖掘(DM)指的是從大量數據中提取出隱含的、具有潛在價值的信息與模式的過程[8][9]。數據挖掘研究主要分為基礎理論研究和應用研究,基礎理論研究的重點是數據挖掘的方法、功能以及系統和軟件的建設等[10],而應用研究則更傾向于成果應用,教育數據挖掘(EDM)指的就是數據挖掘在教育領域的應用。利用數據挖掘技術,可以使教育領域中的大量原始數據的潛在價值得到有效開發,在理論數據和實踐應用中建立緊密聯系,實現透過繁雜的數據,提取價值信息,進而合理預測、有針對性地實施決策的良性循環。(二)我國高等教育數據挖掘研究方法。Romero和Ventura通過分析1995~2005年教育數據挖掘的相關研究文獻,基于網絡教育系統的特定方法主要包括統計和可視化、Web挖掘,其中,Web挖掘分為文本挖掘,關系規則挖掘和序列模式挖掘、聚類、分類和偏差檢測三組[11]。Bak-er[12]將教育數據挖掘方法分為預測、聚類、關系挖掘、人類的判斷和模式發現等5大類。對比2008~2009年國家教育數據挖掘會議文章,發現隨著關系挖掘研究的減少,預測研究大幅提升,模式發現研究逐步展開[12]。孫志梅通過查閱2010~2016年教育數據挖掘相關論文信息,指出目前國內教育數據挖掘常用方法是分類、聚類、預測和關系挖掘,模型構建、可視化呈現則處于起步階段[13]。由此可見,針對教育數據挖掘的研究,國外的研究方法以及項目反映理論的結構方程模型和貝葉斯網絡等的運用,更具有前瞻性和應用價值。(三)我國高等教育數據挖掘研究應用。國外開展數據挖掘研究較早,在高等教育領域逐漸形成“渴望學習”“適應性學習”“希維塔斯學習”等成熟應用[14]。近年來,我國學者針對高等教育的各個方面正在進行數據挖掘分析的嘗試。例如:周國福提出一種基于數據挖掘技術的高校學生成績分析算法,通過收集學生課程表現數據,對學生未來成績作出預測[15]。董瀟瀟等根據高校各種校園數據,構建大學生行為畫像,通過聚類分析,挖掘大學生學習生活的潛在規律,為教育管理部門提供決策依據[16]。胡水星基于Moodle網絡日志和微視頻教學應用案例,對教育數據挖掘的具體應用進行實證分析,從而為進一步優化教學提供教育支持[17]。孫曙輝等提出了智慧課堂數據挖掘分析的四類應用模式,并結合真實數據研究學生主觀行為對成績的影響[18]。整體研究比較零散,缺乏對高校系統性的應用研究和探索,未形成在我國高等教育領域普遍認可和推廣的應用模式。

四、美國教育數據統計、分析及應用理念

美國國家教育統計中心(NCES)作為國家教育數據的統計與研究機構,是美國教育部教育科學院的直屬機構,其主要職能是采集、分析、評估和本國及其他國家教育統計數據。為美國各級各類教育政策制定提供豐富的數據資源和分析報告,有效地提高了美國教育的管理、協調、評價和監督能力。關于數據如何轉化成信息、知識及智能,美籍華人科學家張小彥博士這樣介紹:“數據是對一個物體、事件、現象的記錄,原始數據只要經過去重、清洗、篩選、加工才能成為有用的數字信息,經過分析,同樣的數字信息不斷重復顯現,事物的本質規律才能凸顯,才會被揭示,這時的信息才可以成為知識。知識的重要性在于利用規律預測未來,當知識被應用于實踐解決實際問題后會產生智慧:知識和經驗的結晶。智能對特定事物有著直接行動的指導意義,實踐性強。因此,智能首先在軍事和商業上得到應用和發展。數據、信息、知識、和智能是決策過程中不同層次的理念”。在現代社會,科學是占主導地位的認知手段,而以數據為依據的智能決策發揮著越來越大的作用。美國明尼蘇達大學校務研究辦公室(OIR)為學校校務的規劃、政策的形成以及決策的制定收集數據并進行分析。對于提供給學校決策層、政府機構和其他內外部贊助者的數據,確保其完整性。在從事尖端研究、探索新的分析方法、設計并實施調查及其他數據收集工具等方面發揮領導作用。在全國范圍內與其他高等教育院校、政策與研究中心以及政府機構合作,以推廣最佳做法、促進學術水平的提高。其數據來源主要有三:一是來自于學術參與,自我意識與認知,與學生、教師的互動,學術成功的障礙,校園氛圍的調查報告;二是學校采集的內部數據;三是來自教育綜合數據系統、交流、第三方的外部數據。建立用于衡量方案進程的基準線,通過數據分析確定可行的、有幫助的項目和政策,滿足戰略計劃目標、責任和認證標準。

五、教育統計數據挖掘與分析方式的思考

目前,國內外部分高校對教育統計數據的挖掘與分析進行了有益的探索,為我們不斷完善創新數據統計方法、來源、存儲等,為數據的采集、梳理、分析系統化提供了研究基礎與實踐成果。接下來,高校可以在以下幾個方面加強統計數據的研究與實踐。一是建立教育大數據人才培養和協同創新中心,發揮好學校教育學、統計學、計算機、管理學、數學等方面的基礎和優勢,整合優化資源,推進學科交叉融合,加強政校、校企、校校之間的合作,聯合打造協同創新平臺,開展教育大數據的科學研究以及創新型人才培養。二是充分發揮好數據中心對教育事業的智庫作用。借鑒和引進國內外教育大數據研究的方法、成果及經驗,充分運用數據挖掘與分析技術,開展針對性強、有前瞻性的數據研究工作,為教育事業發展、學校的辦學決策提供參考。三是申報建設教育數據平臺,探索教育數據分析研究成果的應用機制和轉化機制,圍繞教育行業和教育服務周邊領域,瞄準行業領域需求,充分發揮研究平臺優勢,將教育數據研究成果轉化為生產力。

六、結語

目前國內關于教育事業統計的研究范圍、方法等仍有較大提升空間。首先,目前高校已經認識到大數據對高等教育發展的重要意義,但對于具體的高等教育數據如何挖掘還未高度重視;其次,數據挖掘技術在高等教育統計數據中的運用不充分,在高等教育的諸多領域還未涉及;最后,還未形成適應于高等教育教師與學生特點的推廣模式,針對性不強。在我國持續深入推進大數據戰略的背景下,我國高等教育數據挖掘分析具有良好的發展前景,其不僅需要計算機科學、統計學領域的研究者精進技術算法,還需要教育學、心理學等多領域研究者通力合作。立足高校實際,完善專業人才隊伍建設,搭建系統化研究平臺,充分發揮一線教師、管理人員的作用,為早日形成適應于高等教育數據挖掘分析的系統技術體系奠定堅實基礎。

作者:余亞輝 高 敏 夏新顏 單位:洛陽理工學院