垃圾短信數據挖掘論文

時間:2022-03-26 03:30:33

導語:垃圾短信數據挖掘論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

垃圾短信數據挖掘論文

1垃圾短信治理面臨的調整

目前的垃圾短信過濾的方法主要有黑名單和白名單監控技術,但是短信中心對黑白名單處理數量有上限要求;基于關鍵字的過濾技術,但是這種技術不能靈活識別和更新關鍵字;基于內容的過濾技術,可分為基于規則的過濾和基于概率統計的過濾;基于數據挖掘方法的垃圾短信用戶識別,目前基本上都使用IBMSPSSModeler平臺的決策樹和邏輯回歸經典算法識別垃圾短信用戶,由于選取的建模數據不全面以及算法本身各自存在不足使得建模效果受到影響。為建立白名單和科學封堵模型相結合的垃圾短信治理模式,實現精細化、行為級、高效性的垃圾短信治理,本方案提出了基于客戶綜合特征分析的垃圾短信治理技術方案:基于隨機森林分類的垃圾短信用戶預測模型。通過客戶入網屬性,客戶通信行為信息、客戶賬單信息等多個維度構建模型,對垃圾短信號碼進行識別和治理。相比傳統基于短信內容識別、發送量控制的事中控制,本系統能夠進行垃圾短信發送行為預測,配合垃圾短信攔截系統將垃圾短信在未形成大規模發送前攔截。實驗結果證明該模型能夠有效的識別垃圾短信號碼,對監控系統攔截垃圾短信起到很好的輔助作用。

2大數據挖掘的原理與優勢

大數據是指數據量很大(一般是TB到PB數量級)的巨量資料,無法通過主流軟件工具,在合理時間內完成數據處理并獲取有價值的信息。數據大多以非結構化或者半結構化數據為主,大數據具有4V特點:Volume、Velocity、Variety、Veracity。大數據處理的一般思路是數據壓縮、數據抽樣、數據挖掘等。數據挖掘是一種新的信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其它模型化處理,從中提取輔助商業決策的關鍵性數據。利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、推薦系統等,它們分別從不同的角度對數據進行挖掘。大數據挖據的數據源和處理方式對比。

3數據挖據流程和模型選取

3.1數據挖掘的主要流程

數據挖掘主要包括以下6大步驟。

(1)商業理解:確定挖掘目標以及產生一個項目計劃。

(2)數據理解:知曉有哪些數據,以及數據的特征是什么。

(3)數據準備:對數據作出轉換、清洗、選擇、合并等工作。

(4)建模:根據挖掘目標確定適合的模型,建模并對模型進行評估。

(5)模型評估:評估建模效果,對效果較差的結果我們需要分析原因。

(6)結果部署:用所建挖掘模型去解決實際問題,它還包括了監督、維持、產生最終報表、重新評估模型等過程。

3.2垃圾短信治理指標體系設計

垃圾短信用戶識別建模數據主要從信令監測系統、經營分析系統獲取,所獲取的用戶行為數據主要包括用戶通信行為信息、用戶基礎業務屬性、用戶通信業務信息等7個維度。其中,用戶通信行為信息包括活動軌跡、終端IMEI和數據業務訪問等信息。

3.3模型的選取

對白名單用戶的識別可以利用社交網絡模型與業務規則相結合的方法。利用社交網絡進行白名單用戶識別,重點考慮用戶之間發生的通信行為、增值業務交互行為等群體行為,通過對用戶之間關系的辨識。本文建模的重點著眼于垃圾短信用戶的識別及其治理。

3.3.1現有垃圾短信識別模型的優勢與不足

識別垃圾短信用戶是數據挖掘中的分類問題,數據挖掘中常用的分類算法主要有邏輯回歸、決策樹、貝葉斯網絡等算法。其中,神經網絡因本身算法的復雜性,造成模型結果解釋性較差,模型落地較困難而很少在實際項目中使用。目前識別垃圾短信的數據挖掘模型基本上為邏輯回歸模型和決策樹模型。決策樹模型主要具有以下優勢:模型非常直觀,容易讓人理解和應用;決策樹搭建和應用的速度比較快;決策樹對于數據分布沒有嚴格要求;受缺失值和極端值對模型的影響很小。但是,使用決策樹作為垃圾短信用戶識別模型主要存在以下不足。

(1)決策樹最大缺點是其原理中的貪心算法。貪心算法總是做出在當前看來最好的選擇,卻不從整體上思考最優的劃分,因此,它所做的選擇只能是某種意義上的局部最優選擇。

(2)決策樹缺乏像回歸或者聚類那樣豐富多樣的檢測指標和評價方法。

(3)容易出現過擬合。當某些自變量的類別數量比較多,或者自變量是區間型時,決策樹過擬合的危險性會增加。

(4)決策樹算法對區間型自變量進行分箱操作時,無論是否考慮了順序因素,都有可能因分箱喪失某些重要信息。尤其是當分箱前的區間變量與目標變量有明顯的線性關系時,這種分箱操作造成的信息損失更為明顯。

相比于數據挖掘建模常用的其它算法如決策樹、神經網絡、支持向量機等,邏輯回歸技術是最成熟,得到廣泛應用,邏輯回歸模型主要存在以下不足。

(1)變量之間的多重共線性會對模型造成影響。

(2)應刪除異常值,否則它會給模型帶來很大干擾。

(3)邏輯回歸模型本身不能處理缺失值,所以應用邏輯回歸算法時,要注意針對缺失值進行適當處理,或者賦值,或者替換,或者刪除。

3.3.2垃圾短信識別預測模型選取

鑒于目前研究者對垃圾短信識別使用的決策樹和邏輯回歸模型存在較多不足之處,本文從模型算法上對其進行改進,力求得到更加科學合理的垃圾短信識別預測模型。本文使用的數據挖掘模型為隨機森林模型。

3.3.2.1模型簡介

隨機森林(RandomForest)算法是一種專門為決策樹分類器設計的優化方法。它綜合了多棵決策樹模型的預測結果,其中的每棵樹都是基于隨機樣本的一個獨立集合的值產生的。隨機森林和使用決策樹作為基本分類器的Bagging有些類似。以決策樹為基本模型的Bagging在每次自助法(Boostrap)放回抽樣之后,產生一棵決策樹,抽多少樣本就生成多少棵樹,在生成這些樹的時候沒有進行更多的干預。而隨機森林也是進行許多次自助法放回抽樣,所得到的樣本數目及由此建立的決策樹數量要大大多于Bagging的樣本數目。隨機森林與Bagging的關鍵區別在于,在生成每棵樹的時候,每個節點變量都僅僅在隨機選出的少數變量中產生。因此,不但樣本是隨機的,就連每個節點變量產生都有相當大的隨機性。隨機森林讓每棵樹盡可能生長,而不進行修剪。隨機森林算法主要包括決策樹的生長和投票過程。隨機森林中單棵樹的生長可概括為以下幾步。

(1)使用Bagging方法形成個別的訓練集:假設原始訓練集中的樣本數為N,從中有放回地隨機選取N個樣本形成一個新的訓練集,以此生成一棵分類樹。

(2)隨機選擇特征(指評估指標,以下同)對分類樹的節點進行分裂:假設共有M個特征,指定一個正整數m<M,在每個內部節點,從M個特征中隨機抽取m個特征作為候選特征,選擇這m個特征上最好的分裂方式對節點進行分裂。在整個森林的生長過程中,m的值保持不變。

(3)每棵樹任其生長,不進行剪枝。Bagging方法形成新的訓練集和隨機選擇特征進行分裂,使得隨機森林能較好地容忍噪聲,并且能降低單棵樹之間的相關性;單棵樹不剪枝能得到低偏差的分類樹,同時保證了分類樹的分類效能(Strength),分類樹的分類效能是指分類樹對新的測試數據的分類準確率。

3.3.2.2隨機森林分類預測模型的主要優勢

(1)隨機森林的預測精度高,它可以產生高準確度的分類器。

(2)可以處理相當多的輸入變量。隨機森林不懼怕很大的維數,即使有數千個變量,也不必刪除,它也會給出分類中各個變量的重要性。

(3)當在構建隨機森林模型時候,對GenerlizationError估計是無偏估計。

(4)隨機森林在設計上具有很快訓練速度,訓練出結果模型不必花費大量時間。

(5)對缺失值和極端值具有很強容忍能力,即使有較多缺失數據仍可以維持準確度。

(6)當遇到分類數據不平衡時,可以較好地平衡誤差。

(7)隨機森林算法并不會導致過擬合。定義組合分類器的總體分類效能s為:s=Ex,ymg(x,y)。若用ρ表示每棵分類樹之間相關度的均值,則隨機森林的泛化誤差PE的上界可由下式給出:PE*≤ρ(1-s2)/s2。當隨機森林有相當多的分類樹時,隨機森林的泛化誤差幾乎處處收斂于一個有限值。因此,隨著森林中分類樹數目的增長,隨機森林算法并不會導致過擬合。

(8)隨機森林在模型訓練過程中,能夠對特征之間的相互影響行為做出檢測。隨機森林算法具有以上優勢,在垃圾短信治理預測中具有應用的優勢,本文采用隨機森林模型作為垃圾短信用戶的分類預測。綜上所述,隨機森林模型主要在不會出現過擬合、訓練精度高、能處理大量輸入變量并輸出變量重要性3個方面優越于決策樹模型;在容忍缺失值和極端值方面明顯優越于邏輯回歸模型。隨機森林模型在算法設計上有效彌補了決策樹和邏輯回歸模型的不足之處,在垃圾短信識別分類預測中具有較好的應用價值。

3.3.2.3垃圾短信數據挖掘模型構建

通過前述的商業理解確定了垃圾短信識別業務需求,并進行數據理解構建了垃圾短信識別指標體系,再抽取需要的數據,并進行數據清洗、轉換、衍生變量計算等步驟,具備了建模的目標數據,接下來的任務就是通過隨機森林模型構建垃圾短信分類預測模型,對垃圾短信用戶進行識別。

3.4用戶分類治理策略

通過隨機森林模型的識別,根據用戶是垃圾短信發送者的可能性評估,制定不同的治理策略,如圖3所示。實際的執行過程中,需要根據清單的范圍大小,適當的調整預測概率門限,以保證策略執行的效果,同時避免過多的正常用戶的業務感知受到影響。

4垃圾短信治理平臺的實現

4.1系統架構

垃圾短信治理平臺的數據來源較多,需要處理的數據量也非常大,因此,數據采集和數據處理過程是相互影響的過程。垃圾短信治理平臺的系統架構圖如圖4所示。

(1)數據采集層:是垃圾短信治理平臺與多個數據庫來源的安全訪問接口,通過數據采集層實現數據挖掘和分析所需要的基礎信息:用戶屬性信息、用戶卡號信息、用戶業務記錄、用戶的位置信息和消費記錄。

(2)數據處理層:需要根據數據挖掘的需求,將采集的基礎數據轉換為業務服務層可以使用的數據,通過對基礎數據進行整形、清洗和預處理,為后續的數據挖掘做好數據準備。

(3)業務服務層:主要包括應用性服務和安全服務兩個部分,應用性服務包括數據查詢統計服務、用戶查詢服務和GIS應用服務,同時,補充報表服務和文件管理服務以方便日常的工作。通過外部接口服務,可以部署相應的權限管理、數據管理維護以及注冊服務等,降低系統的風險,保證信息的安全傳遞。

(4)功能模塊:主要是根據客戶需求,定制開發的功能單元,功能模塊的個數以實際部署的情況為準。以圖4垃圾短信治理平臺的系統架構圖某省公司的定制模塊為例,主要包括指標查詢模塊、垃圾短信治理模塊、用戶綜合信息分析模塊和市場支撐應用模塊4個部分。

4.2效果展現

針對不同的部門或用戶,垃圾短信治理平臺展現不同的數據,主要包括以下的結果展現方式。

(1)治理效果掌控:通過指標查詢系統,及時掌握垃圾短信的治理效果,發現工作的成果和風險,達到及時發現問題并快速響應的目的。

(2)治理效率提升:通過垃圾短信治理模塊,快速準確識別垃圾短信源頭并定位區域,下發至地市公司快速處理,減小垃圾短信帶來的不良社會影響。

(3)實現預先管控:通過用戶綜合信息分析模塊,可以對潛在的具有垃圾短信源頭特征的風險終端進行監控、通過外呼、資費信息等情況,提前發現和治理潛在垃圾短信源。

(4)渠道規范化:市場部門通過渠道信息和卡號信息,對一些垃圾短信來源集中的渠道的發卡進行監督和嚴格控制,從源頭上減少垃圾短信的源頭。

(5)分層的權限管理、數據來源分級管理和分用戶權限管理可以有效保障數據來源的安全,不同的用戶,劃分不同的展現方式。

作者:單位:中國移動通信集團四川有限公司