ClementineC5.0模型預測CDMA客戶流失

時間:2022-08-11 11:22:00

導語:ClementineC5.0模型預測CDMA客戶流失一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

ClementineC5.0模型預測CDMA客戶流失

摘要:該文針對目前電信行業中一個日益嚴峻的問題:客戶離網進行研究,通過收集客戶的基本數據、消費數據和繳費行為等數據,建立客戶流失預測模型,進行客戶流失分析及預測。通過對大量相關技術和統計方法的研究,最終確定了clementine的C5.0模型作為電信客戶流失的預測模型。此模型對客戶流失預測有較高的準確性,為電信經營分析系統作了有益的嘗試與探索。

關鍵詞:數據挖掘;客戶流失;統計分析;C5.0模型;cdma客戶

1概述

以中國電信云南某公司的項目支撐為基礎,從統計數據來看,維持5%的老用戶增長,給電信公司帶來的利潤將遠遠超過85%,而要想把一位非電信用戶發展成客戶,其成本將比保留一位老客戶的成本高得多,統計數據表明成本是4倍左右,此時,客戶對電信的忠實程序也將發生強烈的變化,由此給企業造成的損失將大大增加。從項目的實施情況來看,為了保證成功向客戶推銷運營商的產品,多數人都只愿意向老客戶推銷。因為由此付出的代價比用戶要小得多,成功率也要高得多。通過這些數據我們可以看到防范老客戶的流失相比發展新用戶來說就顯得尤為重要了,這也是普遍企業最為關注的問題之一。

2研究現狀及C5.0模型特點

在我們國內,很多運營商為了應對市場的競爭,多數都己經建立了“電信經營分析系統”,這在一定程序上為深層次的數據分析提供了良好的數據處理分析平臺。而目前國內在數據利用上確遠遠不及國外的層次深,國內的數據應用主要集中在固定報表處理、查詢分析和個人的主觀探索,在更高領域的應用如數據挖掘還不太成熟,更談不上深層次的應用。而這些在國外,很多知名的電信運營商卻已經能夠很好地利用數據挖掘技術,以便通過建立客戶流失的模型,提升利潤空間及對一些流失概率比較高的客戶進行有針對的保留工作,這樣做的目的可能有效地控制入網用戶的流失。

Clementine作為一個數據挖掘軟件,給運營商創造了很好的數據處理應用平臺,在此平臺下,運營商可以有效地使用一些商業技術準確、快捷地建立預測的模型,而后把由此模型生成的數據使用在推銷應用領域。參照行業執行標準CRISP-DM模型,我們可以有效地改進決策過程,這不僅可以數據到更優商業成果的數據挖掘。而且還可以這樣可以分析出哪些屬性是影響客戶流失的重要因素。現在比較流行的流程包括決策樹、神經網絡、邏輯回歸、聚類關聯性分析等。本文選擇的是C5.0模型節點來進行電信的客戶流失預測。該模型的工作原理是根據在每個級別提供最大信息收獲的字段分割樣本,目標字段必須為分類字段,允許進行多次多于兩個子組的分割。它通常會根據不同的字段再次分割由第一次分割定義的每個子樣本,且此過程會重復下去直到無法繼續分割子樣本。

C5.0可以生成兩種模型:

1)決策樹是對由算法建立的分割的簡單描述,每個終端(或“葉”)節點可描述訓練數據的特定子集,而訓練數據中的每個觀測值都完全屬于樹中的某個終端節點。

2)規則集則是嘗試對單個記錄進行預測的一組規則,規則集源自決策樹,并且在某種程度上表示在決策樹中建立的經簡化或提取的信息版本。對于所存在的問題,例如缺失數據和大量輸入字段,C5.0模型十分穩健,通常不需要花費很長的訓練時間用于估計。同時C5.0模型與其他模型類型相比更容易理解,解釋起來更簡明易懂。

3建構并應用C5.0模型

在clementine中使用C5.0模型進行電信客戶流失預測的過程包括:找到數據源:本例中數據源為基于Excel的電子表格,打開Clementine,在對話框中選擇數據源項,可以直接雙擊我們要使用的Excel進行編輯,在導入文件中選擇要用的數據源。然后在選項板中選擇字段節點,進行類型編輯,設置客戶流失項為輸出項。接下來在建模里根據需要選擇合適的特征選項,此時,該節點會根據設置的條件(如缺失的百分比)篩選出可刪除的字段,如預測變量,依據我們的挖掘需求,保留的預測變量,并按重要性進行排序。生成過濾節點后,在里面可看到保留了對輸出(也就是客戶的流失標志)有影響的項,去掉了對輸出沒什么影響的項。總的挖掘過程和過濾如圖1-圖2所示。

接著我們在模型里面選擇C5.0模型,編輯模型的選項,有四種用于構建C5.0模型的訓練方法:1.輸出類型:指定希望生成的結果模型是決策樹還是規則集,根據CDMA客戶的性質和要預測的是流失項,在此選用決策樹模型。2.群體字符:如果選中此選項,C5.0將試圖組合輸出字段中具有相似樣式的符號值。3.使用推進:這是C5.0算法的一個特殊方法用于提高其準確率。工作原理是在序列中構建多個模型,第一個模型按常規方式進行構建;構建第二個模型時,將焦點集中于由第一個模型誤分類的記錄;構建第三個模型時,將焦點集中于第二個模型的錯誤,依此類推。最后,通過將整個模型集應用到觀測值,并使用加權投票過程將單獨的預測組合為一個總預測來分類觀測值。推進可以顯著提高C5.0模型的準確性,但也需要更長的訓練時間。4.交互驗證:此項使用一組模型(根據訓練數據的子集構建)來估計某個模型(根據全部數據集構建)的準確性,可以指定用于交互驗證的折疊次數或模型數。

C5.0有兩種模式提供選擇:1.簡單模式:將試圖生成盡可能精確的樹,但有時可能會導致過度擬合,從而在將此模型應用于新數據時導致性能偏低。2.專家模式有以下幾點:a.修剪嚴重性:確定對生成的決策樹或規則集的修剪程度,增加該值可獲得一個更簡潔的小型樹,減小該值可獲得一個更精確的樹。b.每個子分支的最小記錄數:可使用子組的大小限制樹的任何分支中的分割數,增加該值有助于防止使用噪聲數據進行過度訓練。c.使用全局修剪:分兩個階段修剪樹,第一個階段是本地修剪,此時將檢查子樹并折疊分支以提高模型的準確性。第二個階段是全局修剪,在此階段中將把樹視作一個整體并折疊虛弱的子樹。d.辨別屬性:此項將在開始構建模型之前檢查預測變量的有效性,如果發現不相關的預測變量,系統會自動把它從模型構建過程中排除。這個選項對于那些具有很多預測變量字段的模型非常有效,而且還可以有效地防止數據過于擬合。

單擊對話框下面的“執行”按鈕后,這樣會在右面的窗口中生成的C5.0的模型,打開此模型,我們可看到統計后的數據及此模型的準確度和時間等信息,另外我們還可以在該模型中導出PMML或者SQL等。如果模型的準確度已經達到我們的要求,接下來將生成的模型導入到業務支撐系統中,根據需要在導出模板中選擇數據庫,輸入服務器地址及數據庫名稱。模型選項和導入SQL數據庫如圖3-圖4所示。

4數據分析和總結

經過上面的操作,再對其進行分析整理后,可以看出CDMA客戶流失的一些特征,如在使用彩鈴的客戶群中,有24%的流失率,遠遠超過不使用彩鈴的用戶,而在這些客戶群中,使用彩鈴并且在網時長大于25的客戶,其流失率更高,達46%以上。這是要重點關注的用戶群。分析結果如圖5所示。

而在FEE_ALL這一項中,高端客戶的流失率較低,CDMA流失最嚴重的客戶群在月消費為10至40的客戶,流失率在22%以上,這也是占比最多的一部分。如果CDMA用戶捆綁有其他業務,如我的e家等,則流失率較低。而在網時長這一項中,在網時長小于15的客戶是流失率較小。

由本研究不難看出,目前電信的客戶流失率是一個非常值得關注的問題,對運營商造成影響是非常大的,因此電信運營商應該特別注意容易流失的客戶群。挽留老客戶,發展新用戶。經過多個數據樣本分析處理得出本文整體的技術路線是非常可行的,C5.0模型對電信客戶流失預測的準確性是相當高的,可以為該電信分公司的經營分析支撐系統提供很好的參考實施價值。