數據挖掘算法分析論文

時間:2022-03-04 08:21:00

導語:數據挖掘算法分析論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

數據挖掘算法分析論文

一、引言

異常客戶是在一段考察時期內與客戶的一般行為模式不一致的對象,它們往往被稱為孤立點。異常客戶分析(即孤立點挖掘)具有重要的現實意義,對于一個企業來說,這些數據往往比常規的客戶模型信息更有價值。本文針對銷售企業,假設已經用一定的方法探測到了孤立點,接下來采用最小二乘法擬合直線中的斜率分析其性質,從而確定是積極的客戶還是消極的客戶。

二、最小二乘法擬合直線

最小二乘法是一種數學優化技術。它以某一社會、經濟或自然現象為對象,尋找一擬合曲線,以滿足給定對象系統的一組觀測數據。通常要求選擇的擬合曲線會使各觀測數據到擬合曲線的誤差的平方和最小。

本文研究銷售企業(如商場)異常客戶的性質。設一段時期內客戶的累計消費金額為y,對應的消費時期為x。假定測得客戶的n個數據(x1,y1),…,(xn,yn),則在XOY平面上可以得到n個實驗點:Pi(xi,yi)(i=1,…n),這種圖形稱為“散點圖”(如圖1,圖2)。在利用最小二乘法進行分析時,各種非線性關系的擬合曲線均可線性化,因此此處選擇直線y=ax+b作為擬合直線,尋求x與y之間近似線性關系時的經驗公式。其中a為直線的斜率,b為直線在y軸上的截距。

如果Pi(i=1,…n)全部位于同一條直線上,則可認為變量之間的關系為y=ax+b,但一般情況下不會如此。記估計值=axi+b,則各實驗點與擬合直線之間的誤差為εi=-yi=(axi+b)-yi,它反映了用直線y=ax+b來描述(xi,yi)時,估計值與觀測值yi之間的偏差大小。則有:

要求偏差越小越好。但由于εi可正可負,簡單求和可能將很大的誤差抵消掉,只有平方和才能反映二者在總體上的接近程度,這就是最小二乘原則。于是問題歸結為根據這一要求來確定y=ax+b中的a和b,使得最小。因為F(a,b)是關于a、b的二次函數并且非負,所以其極小值總是存在的。根據羅彼塔法則,F取最小值時,有:

于是得到了符合最小二乘原則的相應解:

三、基于斜率的異常客戶挖掘算法

1.問題描述

本文的目的是研究某一消費時期內,異常客戶的消費傾向。取異常客戶一年內各月份的累計消費金額為參考,記錄的數據如下(表1,表2)。根據其散點圖(圖1,圖2)可以看出,客戶的累計消費金額隨時間都呈上升趨勢,所以難以觀察出該客戶是否對商場保持持久的忠誠度,是否有轉向競爭對手的可能。基于斜率的異常客戶挖掘算法正是要解決識別客戶性質這一問題。

2.算法描述

算法:Outlier_Analysis。根據輸出的a值來判斷異常客戶的性質:積極的或消極的。

輸入:客戶數據,即參考點,由有序點對(xi,yi)表示;參考點的個數n。

輸出:a(直線的斜率),b(直線在y軸上的截距)。

方法:

(1)初始化a、b。

(2)對客戶的n個觀測數據(即n個記錄點)進行相關數據計算:

(3)ifa<0then

客戶購買金額呈減少趨勢,為消極客戶

else

客戶購買金額呈上升趨勢,為積極客戶

四、結論

把客戶在一段時間內(可按年進行縱向比較,也可按月、季度等進行橫向比較)的購買總金額作為參考點,取連續的n個參考點,根據最小二乘法原來對它們做直線擬和。取閾值為0,根據直線性質,如果擬合直線的斜率小于這個閾值,則這個客戶在這段時間內對該企業的購買金額持續減少,并且斜率的絕對值越大,客戶的購買金額持續減少的越厲害。反之,若斜率大于這個閾值,則這個客戶在這段時間內對該企業的購買金額持續增加,并且斜率越大,客戶的購買金額持續增加的越厲害。根據這一分析結果,商場可有效識別異常客戶的性質,從而有針對性地進行目標營銷——采取有效策略加強與消極客戶的溝通,以改善客戶對商場的已有認知;繼續保持與積極客戶的良好關系,以提升其生命周期價值。