CART算法對(duì)航空公司客戶流失的應(yīng)用

時(shí)間:2022-09-07 11:03:01

導(dǎo)語(yǔ):CART算法對(duì)航空公司客戶流失的應(yīng)用一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

CART算法對(duì)航空公司客戶流失的應(yīng)用

【摘要】為了降低客戶的流失造成公司的巨大損失,構(gòu)建了客戶流失模型。通過(guò)航空公司的客戶信息、數(shù)據(jù)預(yù)處理、屬性規(guī)約、數(shù)據(jù)離散化以及樣本選取構(gòu)建數(shù)據(jù)集,并利用cart算法進(jìn)行客戶流失的預(yù)測(cè),利用混淆矩陣和ROC曲線評(píng)估模型的性能,證明該模型的可行性和良好性,為航空公司開(kāi)展持續(xù)改進(jìn)的營(yíng)銷(xiāo)活動(dòng)提供參考。

【關(guān)鍵詞】客戶流失;分類(lèi)預(yù)測(cè);混淆矩陣;ROC曲線;CART算法

1引言

隨著大數(shù)據(jù)時(shí)代的到來(lái),航空公司掌握隱藏在數(shù)據(jù)的有價(jià)值信息成為獲取商機(jī)的關(guān)鍵因素,客戶流失是造成公司利潤(rùn)損失的重要原因。客戶與公司保持的關(guān)系越良好,帶給公司的利潤(rùn)就越高。但是不少客戶成為新客戶的同時(shí),又有一大批的客戶流失,一個(gè)老客戶的關(guān)系維護(hù)比獲取一個(gè)新客戶的成本更小[1]。這就需要預(yù)測(cè)的方法,如何在客戶即將流失前有效地發(fā)現(xiàn),并對(duì)客戶特征進(jìn)行準(zhǔn)確的分析,從而幫助營(yíng)銷(xiāo)部門(mén)確定可能流失的目標(biāo)客戶群體,制定有針對(duì)性的策略是關(guān)注重點(diǎn)。基于決策樹(shù)建立航空公司客戶流失模型,將具有不同特征的客戶劃分為不同客戶類(lèi)型,分析不同客戶群體特征,為制定營(yíng)銷(xiāo)策略提供參考。

2準(zhǔn)備工作

2.1客戶流失類(lèi)型

由于不同的業(yè)務(wù)所對(duì)應(yīng)的客戶流失的定義不一,這里對(duì)客戶流失類(lèi)型的定義:把客戶類(lèi)型MEMBER_TYPE分為三類(lèi)。第一類(lèi):第二年飛行次數(shù)和第一年飛行次數(shù)的比例大于或者等于90%的客戶為未流失客戶,標(biāo)記為0;第二類(lèi):第二年飛行次數(shù)和第一年飛行次數(shù)的比例大于或者等于50%小于90%的客戶為準(zhǔn)流失客戶,標(biāo)記為1;第三類(lèi):第二年飛行次數(shù)和第一年飛行次數(shù)的比例小于50%的客戶為已流失客戶,標(biāo)記為2.

2.2預(yù)測(cè)客戶流失的重要性

獲得新客戶,一般需要在銷(xiāo)售、市場(chǎng)、廣告和人力等方面花費(fèi)很多,然而大多數(shù)新客戶白喉產(chǎn)生的利潤(rùn)往往不如流失的老客戶。然而,在航空市場(chǎng)競(jìng)爭(zhēng)日益激烈的今天,航空公司在客戶流失方面應(yīng)該引起自購(gòu)的重視,如何改善流失問(wèn)題,進(jìn)一步提升客戶的滿意度。忠誠(chéng)度是航空公司保持自身核心競(jìng)爭(zhēng)力的一大關(guān)鍵因素。因此,航空公司要做好客戶流失預(yù)測(cè)工作。

2.3CART決策樹(shù)

決策樹(shù)是由內(nèi)部節(jié)點(diǎn)、分支和葉子組成一種樹(shù)狀結(jié)構(gòu)。由根節(jié)點(diǎn)開(kāi)始,葉節(jié)點(diǎn)結(jié)束。決策樹(shù)在數(shù)據(jù)分類(lèi)和預(yù)測(cè)中是最簡(jiǎn)單易懂的數(shù)據(jù)挖掘方法,同時(shí)也是一種非常有效的分類(lèi)算法。CART算法可用于分類(lèi)和回歸,相對(duì)ID3算法和C4.5算法應(yīng)用更加廣泛,目前已經(jīng)成功應(yīng)用于醫(yī)學(xué)疾病預(yù)測(cè)[2,3]、魚(yú)種豐富度預(yù)測(cè)[4]、客戶流失分析[5-7]、土壤濕度分析[8]等多個(gè)領(lǐng)域。

3分析方法與過(guò)程

大數(shù)據(jù)時(shí)代的迅猛發(fā)展,使得公司客戶數(shù)據(jù)呈數(shù)量級(jí)增長(zhǎng),如何快速并有效地發(fā)掘隱藏在數(shù)據(jù)的價(jià)值,是公司必抓的重點(diǎn)之一。目前航空公司客戶數(shù)據(jù)主要表現(xiàn)出為數(shù)據(jù)量大、屬性多而余。由于客戶信息包括了MEMBER_NO、GFFP_TIER、SUM_YR_1、SUM_YR_2等44個(gè)屬性。從系統(tǒng)中直接抽取的數(shù)據(jù)不能直接表示客戶的流失特征,需要對(duì)樣本數(shù)據(jù)進(jìn)行探索性分析與預(yù)處理,包括數(shù)據(jù)缺失值與異常值探索行分析,數(shù)據(jù)的屬性構(gòu)造、清洗和變換等、對(duì)已完成預(yù)處理的數(shù)據(jù)進(jìn)行建模,構(gòu)建客戶流失模型、評(píng)估模型性能、調(diào)用模型實(shí)現(xiàn)實(shí)時(shí)診斷,逐漸完善該模型。

3.1數(shù)據(jù)來(lái)源

從某個(gè)航空公司抽取了2012-04-01至2014-03-31的客戶數(shù)據(jù),共有62,988條記錄,其中包含了44個(gè)屬性,由于篇幅限制,給出部分屬性名稱以及說(shuō)明如表1所示。

3.2數(shù)據(jù)探索性分析

原始數(shù)據(jù)中存在大量的缺失值與異常值,需要分析數(shù)據(jù)的分布規(guī)律。數(shù)據(jù)探索結(jié)果如表3所示。原始數(shù)據(jù)中存在票價(jià)為空值,最小票價(jià)為0,最小票價(jià)折扣率為0,總飛行公里數(shù)大于0的情況。票價(jià)是空值可能是客戶沒(méi)有乘機(jī)記錄,其他的可能是客戶乘坐免費(fèi)機(jī)票或者積分兌換造成的。原始數(shù)據(jù)中某些屬性數(shù)據(jù)的取值范圍差異比較大,為了消除數(shù)量級(jí)數(shù)據(jù)造成的影響以及數(shù)據(jù)變換的屬性取值分級(jí),所以需要對(duì)數(shù)據(jù)進(jìn)行離散化(3.3.2小節(jié)提及)。

3.3數(shù)據(jù)預(yù)處理

客戶流失分析一般是針對(duì)老客戶而言,這里定義飛行次數(shù)FIGHT_COUNT大于6次的客戶為老客戶。由于客戶類(lèi)型MEMBER_TYPE是由第二年飛行次數(shù)以及第一年飛行次數(shù)的比例確定的,則第一年飛行次數(shù)等于0的記錄不滿足分母不為零的條件。發(fā)現(xiàn)數(shù)據(jù)中存在缺失值,原始數(shù)據(jù)中存在票價(jià)為空值,最小票價(jià)為0,最小票價(jià)折扣率為0,總飛行公里數(shù)大于0的情況。由于原始數(shù)據(jù)量很大,這類(lèi)數(shù)據(jù)占比比較小,對(duì)于問(wèn)題的分析影響很小,所以對(duì)這些記錄直接刪除,即刪除票價(jià)為空的記錄;刪除票價(jià)是0、平均折扣率是0、總公里數(shù)大于0的數(shù)據(jù)。經(jīng)過(guò)數(shù)據(jù)的簡(jiǎn)單處理后,剩余數(shù)據(jù)是31,272條記錄。3.3.1屬性規(guī)約原始數(shù)據(jù)中包含了太多的屬性,選取客戶的關(guān)鍵屬性。即需要選取與MEMBER_TYPE相關(guān)性比較強(qiáng)的變量,計(jì)算不同的變量與MEMBER_TYPE的相關(guān)性。對(duì)原始數(shù)據(jù)集中數(shù)值型變量,通過(guò)雙變量Pearson相關(guān)性檢驗(yàn)來(lái)說(shuō)明變量間的相關(guān)性。從44個(gè)屬性中選取相關(guān)性比較高的20個(gè)屬性(這里選取相關(guān)性的絕對(duì)值大于等于0.13),如表4所示。其他屬性對(duì)MEM⁃BER_TYPE的影響很小,可以忽略不計(jì),因此直接剔除。3.3.2數(shù)據(jù)變換數(shù)據(jù)變換目的是將數(shù)據(jù)轉(zhuǎn)化成“合適的”格式,以便適應(yīng)數(shù)據(jù)挖掘的需要。這里采用的是屬性構(gòu)造以及數(shù)據(jù)離散化,采用聚類(lèi)算法的方式將除了客戶級(jí)別、客戶類(lèi)型的其他屬性分成3類(lèi)。3.3.2.1屬性構(gòu)造為了降低屬性的維度,通過(guò)原始數(shù)據(jù)計(jì)算以下指標(biāo)。5)綜上,最終確定的數(shù)據(jù)屬性個(gè)數(shù)為12,第13列為標(biāo)簽列。3.3.2.2數(shù)據(jù)離散化通過(guò)聚類(lèi)算法將數(shù)據(jù)集進(jìn)行離散化處理,每個(gè)屬性(除了客戶級(jí)別)分成3類(lèi),其離散表如表5所示。3.3.3樣本平衡對(duì)于訓(xùn)練的數(shù)據(jù),數(shù)據(jù)正負(fù)樣本比例并非一定是相同或等比的才是樣本平衡。這里最終得到的數(shù)據(jù)一共31272條記錄,標(biāo)記為0的數(shù)據(jù)未流失客戶為17396,標(biāo)記為1的數(shù)據(jù)準(zhǔn)流失客戶是7252,標(biāo)記為2的數(shù)據(jù)已流失客戶是6624,樣本比例大致是:2.6∶1∶1,決策樹(shù)正負(fù)樣本比例最佳時(shí)1∶2.5[9]接近數(shù)據(jù)樣本最佳比例,所以直接用數(shù)據(jù)進(jìn)行訓(xùn)練以及測(cè)試。

4模型的建立以及實(shí)現(xiàn)

混淆矩陣是表示真實(shí)屬性與識(shí)別結(jié)果類(lèi)型之間關(guān)系的一種常用表達(dá)形式,也是評(píng)價(jià)分類(lèi)器性能的一種常用方式。經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備工作,預(yù)處理后的樣本數(shù)據(jù)達(dá)到了建模數(shù)據(jù)質(zhì)量要求,在此基礎(chǔ)上直接通過(guò)PYTHON包含的Scikit_Learn利用訓(xùn)練樣本構(gòu)造CART算法決策樹(shù)模型,建立客戶流失預(yù)測(cè)模型,默認(rèn)葉子節(jié)點(diǎn)包含的最小樣本數(shù)為2。選擇10-fold交叉驗(yàn)證方式,即隨機(jī)選擇80%為訓(xùn)練樣本,20%為測(cè)試樣本,得到混淆矩陣,即可獲得分類(lèi)器的正確識(shí)別率和錯(cuò)誤識(shí)別率。由圖1可知,隨機(jī)選擇訓(xùn)練樣本為25017,則整體分類(lèi)準(zhǔn)確率是(14998+6012+2977)/25017=95.88%。第一行說(shuō)明,有12998個(gè)樣本分類(lèi)準(zhǔn)確,占據(jù)99.04%,屬于未流失客戶,有141個(gè)樣本被誤判為準(zhǔn)流失客戶,有5個(gè)樣本為誤判為已流失客戶;第二行說(shuō)明,有6012個(gè)樣本分類(lèi)準(zhǔn)確87.23%,屬于準(zhǔn)流失客戶,有675個(gè)樣本被誤判為未流失客戶,有205個(gè)樣本被誤判為已流失客戶;第三行說(shuō)明有2977個(gè)樣本分類(lèi)準(zhǔn)確,占據(jù)99.87%,屬已流失客戶,有1個(gè)樣本被誤判為未流失客戶,有3個(gè)樣本被誤判為準(zhǔn)流失客戶。三類(lèi)客戶類(lèi)型的平均正確識(shí)別率為95.88%,說(shuō)明該模型效果良好。

4.1模型評(píng)估

受試者工作特性ROC曲線[10]反映了分類(lèi)器正確的體積概率,其值越是接近1說(shuō)明該結(jié)果越好。為了進(jìn)一步評(píng)估模型分類(lèi)的性能,用測(cè)試樣本對(duì)其采用ROC曲線進(jìn)行評(píng)估,一個(gè)優(yōu)秀的分類(lèi)器所對(duì)應(yīng)的ROC曲線應(yīng)該是盡可能的靠近左上角。由圖2可知,該模型效果優(yōu)良,對(duì)客戶流失預(yù)測(cè)是合理、準(zhǔn)確的。

4.2模型應(yīng)用

航空公司客戶流失分析的最終目標(biāo)是要給公司的營(yíng)銷(xiāo)計(jì)劃給予指導(dǎo),從以下幾方面進(jìn)行闡述。由于本模型采用歷史的數(shù)據(jù)進(jìn)行建模與預(yù)測(cè),對(duì)于新增的老客戶信息,如果預(yù)測(cè)結(jié)果與實(shí)際情況差別大的話,需要航空公司重點(diǎn)分析,查看實(shí)際的原因以及確定模型的穩(wěn)定性。如果模型穩(wěn)定性變化大,則需要重新訓(xùn)練模型。一般建議每隔半年訓(xùn)練一次[11]。整個(gè)客戶流失分析的過(guò)程應(yīng)該是一個(gè)可持續(xù)循環(huán)利用的過(guò)程。確定客戶類(lèi)型,特別是準(zhǔn)流失客戶。可以通過(guò)客戶流失概率來(lái)確定可能流失的客戶,并對(duì)該客戶群進(jìn)行追蹤與關(guān)懷。會(huì)員級(jí)別的升級(jí)與保留。如今對(duì)于會(huì)員級(jí)別的管理,基本是大同小異的。在航空行業(yè),一般要求客戶在規(guī)定時(shí)間,如一年,累計(jì)達(dá)到相對(duì)應(yīng)的飛行里程或單位里程票價(jià),達(dá)到此要求后在有效期內(nèi)(通常為兩年)可進(jìn)行會(huì)員級(jí)別的升級(jí),以便享受更人性化的服務(wù)。有效期結(jié)束時(shí),根據(jù)一定的評(píng)價(jià)方式,對(duì)客戶的級(jí)別進(jìn)行調(diào)整。但是大部分客戶往往不關(guān)注或者無(wú)法獲取航空公司對(duì)會(huì)員級(jí)別調(diào)整制度,而導(dǎo)致錯(cuò)過(guò)以至于對(duì)航空公司的不滿而轉(zhuǎn)向在其他公司消費(fèi)。因此,航空公司可以在有效期結(jié)束之前對(duì)即將滿足評(píng)價(jià)要求的客戶進(jìn)行提示以及采取相應(yīng)的促銷(xiāo),如降低折扣,刺激客戶消費(fèi)。積分兌換。航空公司可以通過(guò)累計(jì)的飛行里程或單位里程積分來(lái)兌換免機(jī)票或者升級(jí)艙位,特別是首次兌換,當(dāng)達(dá)到航空公司的標(biāo)準(zhǔn),首次兌換的力度往往會(huì)比其他營(yíng)銷(xiāo)活動(dòng)力度要大。但是,航空公司也對(duì)客戶積分的進(jìn)行削減,一般會(huì)在年末進(jìn)行清零,導(dǎo)致了很多客戶好不容易積累的積分白白損失,總是難以達(dá)到首次兌換的標(biāo)準(zhǔn),造成客戶的不滿。可以對(duì)即將滿足首次兌換的客戶進(jìn)行提示或者進(jìn)行促銷(xiāo)活動(dòng),積分兌換實(shí)際上在一定程度上實(shí)現(xiàn)了成本轉(zhuǎn)移,因?yàn)橥俅畏e分兌換的客戶在本公司比在其他公司消費(fèi)的可能性大。捆綁銷(xiāo)售。增強(qiáng)與非航公司的合作,使得客戶在其他公司消費(fèi)的同時(shí)獲得本航空公司的積分或其他福利。與客戶的互動(dòng)價(jià)值往往高于獲取新客戶的價(jià)值,也避免了客戶流失的利潤(rùn)直接損失。

5結(jié)束語(yǔ)

論文利用CART決策樹(shù)算法結(jié)合航空公司客戶數(shù)據(jù)進(jìn)行客戶流失分析,研究航空公司客戶流失的行為特征,利用屬性構(gòu)造等方式總結(jié)出客戶流失的特征屬性,根據(jù)CART決策樹(shù)算法在航空公司的識(shí)別效果,采用ROC曲線進(jìn)行模型評(píng)估,對(duì)客戶進(jìn)行建模分析能很好的預(yù)測(cè)其流失情況,利用CART決策樹(shù)算法進(jìn)行航空公司客戶流失預(yù)測(cè)分析具有現(xiàn)實(shí)意義。

作者:余思東 黃欣 單位:廣西農(nóng)業(yè)職業(yè)技術(shù)學(xué)院信息與機(jī)電工程系