數(shù)據(jù)挖掘在商業(yè)領(lǐng)域的運(yùn)用
時(shí)間:2022-12-31 09:27:18
導(dǎo)語:數(shù)據(jù)挖掘在商業(yè)領(lǐng)域的運(yùn)用一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘的過程可以理解為以下幾個(gè)步驟。第一步,數(shù)據(jù)清理,解決數(shù)據(jù)的不一致問題、平滑噪聲、補(bǔ)充缺失數(shù)據(jù)、識(shí)別并刪除離群點(diǎn)。第二步,數(shù)據(jù)集成,把來自多個(gè)文件、數(shù)據(jù)立方或者數(shù)據(jù)庫中的數(shù)據(jù)組合在一起。第三步,數(shù)據(jù)選擇、分析、提取數(shù)據(jù)庫中與任務(wù)相關(guān)的數(shù)據(jù)。第四步,數(shù)據(jù)變換,通過數(shù)據(jù)平滑、匯總、聚集、泛化、規(guī)范化、屬性構(gòu)造等操作提高對(duì)高維數(shù)據(jù)的理解,把數(shù)據(jù)變換統(tǒng)一成適合進(jìn)行數(shù)據(jù)挖掘的形式。第五步,數(shù)據(jù)挖掘,選擇合適的數(shù)據(jù)挖掘算法智能的提取出有用的信息或模式。數(shù)據(jù)挖掘在于發(fā)現(xiàn)有價(jià)值的模式,總體來說,數(shù)據(jù)挖掘的目的可以分為兩類:描述性和預(yù)測(cè)性。描述性挖掘任務(wù)用于表示目標(biāo)數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì),包括分類、聚類、關(guān)聯(lián)分析、異常檢測(cè)等,預(yù)測(cè)性任務(wù)在匯總后的數(shù)據(jù)上進(jìn)行歸納,作出預(yù)測(cè),包括回歸、分類等。第六步,模式評(píng)估,根據(jù)某種度量確定出某些有趣的模式,或由專家來評(píng)定其價(jià)值和正確性。第七步,知識(shí)表示,使用可視化等信息表示方法,向用戶展示挖掘出的有用信息和結(jié)果分析。以上的步驟是進(jìn)行數(shù)據(jù)挖掘的一般過程,對(duì)于不同的應(yīng)用分析過程也不盡相同,在商業(yè)領(lǐng)域中,面對(duì)來自商業(yè)的各種不同的分析任務(wù),首先應(yīng)該理解該應(yīng)用領(lǐng)域,對(duì)數(shù)據(jù)分析的背景有一個(gè)很好的理解,然后盡可能的按照所需信息進(jìn)行信息的收集工作。
2數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的重要應(yīng)用及分析
零售業(yè)是非常適合的數(shù)據(jù)挖掘的商業(yè)領(lǐng)域之一,因?yàn)樗舜罅康匿N售記錄、顧客購買記錄、貨物運(yùn)輸記錄等大量的原始信息,為數(shù)據(jù)挖掘提供了豐富的資源。分類和預(yù)測(cè)技術(shù)在市場(chǎng)分析、供應(yīng)和銷售方面為商務(wù)智能提供預(yù)測(cè)分析;聚類可以在客戶關(guān)系管理方面,根據(jù)顧客的相似性把顧客進(jìn)行分組以便進(jìn)行更多的后續(xù)分析。數(shù)據(jù)挖掘在商業(yè)上的應(yīng)用具體在以下幾個(gè)方面:第一,幫助設(shè)計(jì)和構(gòu)造數(shù)據(jù)倉庫,由于商業(yè)領(lǐng)域中信息范圍太大,數(shù)據(jù)庫的設(shè)計(jì)也存在許多方式,我們可以使用數(shù)據(jù)挖掘演練結(jié)果指導(dǎo)數(shù)據(jù)庫的設(shè)計(jì)方便以后的使用和后續(xù)分析處理。第二,對(duì)顧客需求、產(chǎn)品銷售、趨勢(shì)等構(gòu)造復(fù)雜的數(shù)據(jù)立方體,提供多維分析和可視化工具。第三,根據(jù)顧客購買記錄,使用序列模式挖掘顧客的消費(fèi)變化,分析顧客的忠誠程度。第四,產(chǎn)品推薦和商品的交叉推薦,通過銷售記錄挖掘關(guān)聯(lián)信息,這類信息可以形成產(chǎn)品推薦,也可以根據(jù)其他顧客的購買意愿產(chǎn)生個(gè)性化購買服務(wù)。第五,通過多維分析、聚類分析和林群點(diǎn)分析可以識(shí)別可能的欺騙者和他們的習(xí)慣模式,檢測(cè)通過欺騙進(jìn)入或未經(jīng)授權(quán)訪問個(gè)人或組織的賬戶企圖,發(fā)現(xiàn)可能需要特別注意的不尋常模式。使用數(shù)據(jù)挖掘技術(shù),可以更好的理解每組顧客的行為特征,開發(fā)制定銷售計(jì)劃。
3數(shù)據(jù)挖掘的典型分析方法
3.1特征化和區(qū)分
數(shù)據(jù)特征化就是簡(jiǎn)潔的匯總目標(biāo)數(shù)據(jù)的一般特征。在商業(yè)活動(dòng)中,公司為保證自己的正常運(yùn)營(yíng)和經(jīng)濟(jì)效益要保證有一定的客戶源。包括不斷發(fā)展新客戶,對(duì)已有客戶的消費(fèi)行為和基礎(chǔ)信息作為基礎(chǔ)綜合考慮客戶的行為特征,對(duì)可能的客戶源加強(qiáng)推薦工作。
3.2頻繁模式和關(guān)聯(lián)規(guī)則
挖掘頻繁模式能找出大部分人的喜好,找出適用范圍更廣的有趣模式的關(guān)聯(lián)性和相關(guān)性。關(guān)聯(lián)規(guī)則若能同時(shí)滿足最小支持度閾值和最小置信度閾值,進(jìn)一步發(fā)現(xiàn)關(guān)聯(lián)的屬性-值對(duì)之間的有趣的統(tǒng)計(jì)相關(guān)。關(guān)聯(lián)規(guī)則最早是用于解決購物籃分析問題,從購物籃數(shù)據(jù)中發(fā)現(xiàn)顧客的購買規(guī)律決定商品的擺放位置。還用于醫(yī)療中發(fā)現(xiàn)某些癥狀與某些疾病之間的關(guān)聯(lián),為診斷提供更多依據(jù)。
3.3分類與回歸
分類可以找出描述和區(qū)分?jǐn)?shù)據(jù)類的模型,以便接下來實(shí)現(xiàn)模型預(yù)測(cè)類標(biāo)號(hào)以及預(yù)測(cè)位置類別的數(shù)據(jù)元素。決策樹、神經(jīng)網(wǎng)絡(luò)是比較常見的用于分類的方法。相關(guān)分析是在分類和回歸之前進(jìn)行,識(shí)別出顯著相關(guān)的屬性,其他不想管的屬性可以暫時(shí)不考慮。分類方法用于金融市場(chǎng)營(yíng)銷、市場(chǎng)預(yù)測(cè)、信用評(píng)估、醫(yī)療診斷等方面。分類器還可用于預(yù)測(cè)某些產(chǎn)品的銷售情況、廣告的投放區(qū)域,以及保險(xiǎn)業(yè)中評(píng)估客戶的信用等級(jí)。
3.4聚類(cluster)
與分類不同的是,分類需要一個(gè)類別屬性,而聚類不需要,它是將數(shù)據(jù)集劃分為由若干相似實(shí)例組成簇的過程,使得在同一個(gè)簇中數(shù)據(jù)相似程度最大化,簇間數(shù)據(jù)相異程度最高。是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法。涉及到的主要算法有K-means,EM算法和DBSCAN算法。聚類分析可以詳細(xì)的劃分市場(chǎng),比如,基于客戶特征把客戶群進(jìn)行劃分,房地產(chǎn)行業(yè)中對(duì)住宅戶型、地理位置等特征來鑒定一個(gè)城市的房產(chǎn)分組。
3.5離群點(diǎn)分析
前面討論的聚類、分類、關(guān)聯(lián)分析等方法的重點(diǎn)在于發(fā)現(xiàn)大多數(shù)數(shù)據(jù)所適用的常規(guī)模式。數(shù)據(jù)集中的數(shù)據(jù)中可能包含一些與其他數(shù)據(jù)一般行為不一致的點(diǎn),這些數(shù)據(jù)就稱為離群點(diǎn),大部分的離群點(diǎn)在一些有趣模式的挖掘過程中被丟棄,然而,在一些其他方面,可以直接將離群點(diǎn)單獨(dú)拿出來做分析。比如應(yīng)用于災(zāi)害氣象預(yù)報(bào)、欺詐檢測(cè)、藥物異常反應(yīng)、網(wǎng)絡(luò)安全入侵檢測(cè)等領(lǐng)域。
4數(shù)據(jù)挖掘的分析軟件和展示工具
無論是數(shù)據(jù)分析、數(shù)據(jù)挖掘還是商業(yè)智能,在以后的應(yīng)用中我們都有必要掌握幾種高效的軟件工具。對(duì)于商業(yè)領(lǐng)域中數(shù)據(jù)挖掘工作不僅要收集數(shù)據(jù)進(jìn)行挖掘還要將結(jié)果以報(bào)表的形式展現(xiàn)給客戶。數(shù)據(jù)挖掘的工具可按應(yīng)用分為幾個(gè)層次。數(shù)據(jù)存儲(chǔ)層:首先,我們需要存儲(chǔ)數(shù)據(jù),能夠理解數(shù)據(jù)的存儲(chǔ)和數(shù)據(jù)的基本結(jié)構(gòu)和數(shù)據(jù)類型以及SQL語句的基本結(jié)構(gòu)和讀取等,常見的數(shù)據(jù)庫有Access、MySQL、SQLserver、DB2、oracle。報(bào)表層:數(shù)據(jù)存儲(chǔ)以后,我們要制作讓大部分人都能報(bào)表。比如CrystalReport水晶報(bào)表、Bill報(bào)表、Tableau報(bào)表。數(shù)據(jù)分析層:從長(zhǎng)我們用的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘工具,包括Excel、SPSS、Modeler、SAS、JMP分析。表現(xiàn)層:對(duì)分析挖掘以后的結(jié)果展現(xiàn)給客戶,即使非專業(yè)人員也可以明白,這樣的表現(xiàn)形式更加有價(jià)值,這個(gè)領(lǐng)域的軟件或工具非常有價(jià)值比如PowerPoint、Visio、SwiffChart、ColorWheel等。
5結(jié)語
數(shù)據(jù)挖掘用途廣泛,隨著近些年學(xué)術(shù)領(lǐng)域上進(jìn)一步的研究,在商業(yè)活動(dòng)和社會(huì)也在不斷應(yīng)用和發(fā)展。在商業(yè)領(lǐng)域中,數(shù)據(jù)挖掘可以幫助我們更好的理解顧客、市場(chǎng)、供應(yīng)和競(jìng)爭(zhēng)對(duì)手等可以使得決策者進(jìn)行有效的市場(chǎng)分析,做出明智的商務(wù)決策。
作者:趙凱 仁慶道爾吉 單位:內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)管理論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫論文 數(shù)據(jù)誤差 數(shù)據(jù)統(tǒng)計(jì) 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)分析 心理培訓(xùn) 人文科學(xué)概論