近鄰傳播貧困生評定模型案例研究

時間:2022-12-09 04:52:55

導語:近鄰傳播貧困生評定模型案例研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

近鄰傳播貧困生評定模型案例研究

摘要:準確認定貧困學生資格是關系到資助資源流向和教育公平的實現,在教學管理中,校園卡消費數據的準確聚類對于貧困生評定工作具有重要參考價值。近鄰傳播對于離群點不敏感,也能保持模型的較好魯棒性的特點。將近鄰傳播算法應用到校園卡消費數據的聚類,實現學生消費能力的分類。實例分析的結果表明,該算法聚類結可為貧困生評定提供科學的參考依據。

關鍵詞:近鄰傳播;聚類算法;評估模型案例研究

1概述

高校貧困生分級認定就是從在校學生集合中選擇經濟困難的學生子集,并判別其經濟困難級別。準確認定貧困學生資格是高校合理、公平分配資助資源的先決條件,是高校學生獲得國家困難補助、社會資助及助學貸款的重要依據[1]。目前國內外的研究主要以家庭經濟狀況調查作為貧困生認定的主要手段。代祖華等[2]利用層次分析法與案例推理原理建構高校貧困生分級認定模型,采用向量定義法,給出了案例庫和貧困生分級認定問題的形式化描述,研究了以案例檢索為基礎的貧困生分級認定算法。畢鶴霞等[1]運用“模糊綜合評判法與模糊層次分析法的集成”,依據層次分析法和加權平均法分別對致貧因素一級指標和二級指標進行權重測算,并根據拋物線型隸屬函數測算底層因素的隸屬度,構建貧困程度綜合判別模型。以家庭經濟狀況調查數據為基礎的研究存在調查指標有差異大等缺陷,而且,實際操作中,由于學生自尊心強,很多需要學校補助的學生不愿意公開家庭資料,造成學校收集的貧困生情況存在缺漏或不真實的情況。學生校園卡消費記錄對分析學生的行為有很大的價值。電子科技大學從3萬名在校生中,采集到了2億多條包含學生選課記錄、進出圖書館、寢室以及食堂用餐、超市購物等行為數據,通過對不同的校園一卡通記錄進行分析,發現一個學生在學校有多少親密朋友,通過這個課題找到了800多個校園中最孤獨的人。周口師范學院建立了較為詳細的大數據分析系統,能夠實現對學生出勤、就餐、圖書閱讀等方面的大數據分析。南京理工大學通過數據分析,每個月在食堂吃飯超過60頓、一個月總消費不足420元的,被列為受資助對象,采取直接將補貼款打入學生飯卡的方式,學生無需填表申請,不用審核。通過學生平時校園卡的花費情況,運用數據挖掘的手段,找出真正在基礎生活上比較困難的同學,并向學生發放相關補助。通過近鄰傳播算法將學生群體進行分類,確定學生的消費類型,在一定程度上真實地反映了學生的經濟狀況,而且不依賴學生調查數據,能夠客觀地反映學生的經濟狀況,從而輔助學校決策層制定相應的補助方案。

2近鄰傳播算法

近鄰傳播(affinitypropagation,AP)算法是最近發展的一種采用最大和置信傳播[3]的聚類算法[4]。輸入樣本點之間的相似性,它產生一個中心點集合及將每個樣本點分配給最合適的中心點。其中,中心點定義為最佳表達樣本點集合的代表性樣本點。發表于2007年Science雜志的文章[4]指出,近鄰傳播相比于其他基于中心點的聚類算法,具有3個優勢:(1)它是非常高效的;(2)它對初始化不敏感;(3)它能夠得到比k-中心點(k-center)算法[5]更優的聚類結果。從而它被廣泛運用于各種實際應用場合,例如圖像、文本、生物信息學、人臉識別、基因發現、搜索最優航線、碼書設計以及實物圖像識別等領域。由于近鄰傳播算法不是用均值做質心計算規則,因此對于離群點和異常值不敏感,同時其初始值不敏感的特性也能保持模型的較好魯棒性[6]。給定N個樣本點的相似性矩陣,AP算法通過最大化下面的目標函數來得到一個有效的類標向量[7]。AP算法是一個建立在因子圖(factorgraph)上的最大和置信傳播算法[6]。如圖1所示,該算法的主要思想是,初始化階段將所有的樣本點當成潛在的中心點,然后不斷地在樣本點之間傳遞實數值消息,直至產生高質量的中心點。如圖1所示,其中兩種類型的消息分別是:一種是從樣本點i發送到候選中心點k,用于反映樣本點k能夠作為樣本點i的中心點的累積置信度,記為r(i,k);另一種是從候選中心點k發送到樣本點i,用于反映樣本點i選擇樣本點k作為中心點的累積置信度,記為a(i,k)。這兩種消息都初始化為0,并分別按照如下的方式不斷迭代更新:直至這些消息的值收斂到不再改變為止。最終的類標向量可以通過計算得到。

3案例分析

實驗都運行在一個移動圖形工作站,基本配置為:64位Fedora操作系統,Intel(R)Corei7-6500U2.50GHz處理器,32GB內存,軟件環境使用Anaconda5.1,Python3.6,算法基于Scikit-learn框架實現。采集了某高校4個校區共23112個學生在4個月(122天)內的消費記錄,共計5572316條飯堂的POS機刷卡記錄,記錄包含下面的字段:卡號、學號、姓名、飯堂名稱、POS機號、入賬時間、金額。3.1數據分析采集到的數據是學生每一次在飯堂刷卡記錄,數據來源比較單一,原始數據不能直觀地反映學生在飯堂的消費水平。因此,按照食堂的時間段將學生的打卡時間分為早餐、午餐、晚餐和宵夜,不在這些時間范圍內的打卡記為其他時間消費,并分別計算在這5個時間段內學生消費的均值、消費總次數和消費的標準差。通過統計學生人均吃早、午、晚餐的天數,發現在4個月中,絕大多數同學早午晚3餐在飯堂吃飯的天數不足一半,可見學生外出吃飯或叫外賣的現象非常頻繁。如圖2所示。午餐是最能夠反映學生整體消費水平的一餐飯,因為減肥的同學會更多選擇少吃晚餐,早餐又因為學生起床時間和吃飯時間難以確定而存在較大誤差,因此午餐就變成3餐中最具有參考價值的一餐。分析發現4個校區午餐消費低于6元和6~9元之間的學生比例幾乎一致,這說明雖然每個校區的整體消費可能存在偏差,但是生活貧困的學生的消費水平幾乎是維持在6~9元之間的。觀察學生消費在9~11元的比例和11~15元的比例,這部分學生絕大多數是在學校消費水平普通的學生,最能夠反映飯堂午餐的均價。對比午餐和晚餐的消費情況,午餐在9~11元和11~15元的比例在晚餐段有明顯的降低,而午餐在6元以下和6~9元的比例在晚餐時段則都存在不同程度的增長。這說明更多的學生傾向于晚上吃更便宜的東西。宵夜的分布與早餐很類似,可見宵夜時段學生的選擇不是很多,或者說宵夜整體比較便宜。由于學校周邊外賣眾多,嚴重影響對學生消費額的估計。校園食堂內還有下午茶或者小超市,打卡記錄無法分辨學生是在飯堂吃飯還是進行額外的消費,我們難以直接根據學生花費的總額或者均值來估計學生是否貧困,因此通過聚類的方法找出真正符合貧困生的消費指標。3.2劃分學生類型根據上述得到的學生的消費情況,計算每兩個學生之間的相似程度,如果兩個學生的消費情況非常類似(比如幾乎每天都在飯堂吃飯,午晚餐消費水平在6~9元,從不吃早餐和宵夜),那么就認為這兩個學生是一個類別的。上述劃分學生類別的方法可以通過AP聚類算法來自動完成,實驗代碼使用Scikit-Learn[8]編寫。通過計算每兩個學生之間的相似度和聚類后,將4個校區的學生分別分為86、229、161和231個類。分別記錄了4個校區的每一個學生類別中的學生名單和學生的消費記錄。許多類別中的學生數量非常少,這樣的類別不具有代表性,不是我們需要的。篩選掉包含人數少的類別后,逐一分析每個類別的特性,總結出了8類有代表性的學生,并結合實際情況給出了下面的經驗性的學生類別劃分標準,如表1所示。其中A類和B類學生是推薦的貧困生(名單),通過篩選條件保證了:(1)這批學生絕大多數時間是在飯堂吃飯盡管學校周邊外賣很多而且價格不貴,但是最便宜的外賣也會在10元以上起送,真正貧困的學生仍然會更多地選擇在飯堂消費。(2)消費水平在每餐飯9元以下(校平均午晚餐消費是在10~11塊)(3)午晚餐的標準差限制在3.5元標準差是圍繞著每餐飯的平均值的一個波動,它約束了學生每餐飯之間的差異不會太大。這樣就篩選出了部分大多數時間只是在飯堂買瓶飲料的學生,他們每天都在飯堂有小額的消費,平均消費水很低,在飯堂消費的次數也很高,但是這批學生往往每次消費差異比較大。而貧困生則會盡量保持一個比較低的水平維持,因此標準差會非常小。(4)早餐的均值在5元以下通過對早餐的限制來篩選減肥的學生,這群學生往往也吃得非常少,而且又以素食為主,消費水平也很低,但是這群學生通常早餐會吃得非常好。當然這中間也存在有些貧困生會將更多的金錢投放在早餐上,因此限制并不嚴格。全校平均早餐消費在4.5元左右,這里用5元限制,只會篩選出具有早餐高消費特征的學生。通過表1的篩選條件,對這8大類學生的消費情況作圖分析,如圖3所示。通過篩選了午餐、晚餐消費次數高,午餐、晚餐平均消費水平低,早餐消費不是特別高,消費偏差不是特別高的學生為目標學生(即A、B類學生)。但是通過圖3可以發現,需要補貼的學生早餐的消費水平也是8類消費者中最低的,每餐飯的偏差都非常小(比較有計劃地花銷),并且早餐也在飯堂吃,吃宵夜和買零食的次數相比于在校吃飯次數低很多,這一切特征都滿足實際印象中的貧困生的判斷指標。

4結語

以學生在校的消費打卡數據為基礎,通過近鄰傳播算法將學生群體進行分類,確定學生的消費類型。分類結果不依賴學生經濟情況調查數據,在一定程度上能夠客觀地反映學生的經濟狀況。進一步,可以通過比對給出的貧困生名單和學生處人工統計的貧困生名單來判斷方法是否準確。當然考慮到學生處的名單也存在調查難的問題,如果能加以追蹤調查則會得到更好的評估結果。另外,此次研究只考慮了典型的指標,存在邊界模糊的情況,后續將繼續改進算法,提高結果的可靠性。下一步工作,擬將開發基于此模型的應用系統,應用到高校家庭經濟困難學生信息系統認定的開發中,為學校的貧困生評定做決策支持。

作者:曾青松 魏斌 單位:廣州番禺職業技術學院信息工程學院 廣東外語外貿大學英語教育學院