電子商務網站營銷數據分析技術探究論文
時間:2022-09-23 09:16:00
導語:電子商務網站營銷數據分析技術探究論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
論文關鍵詞:日志數據信息技術數據倉庫聯機分析處理
論文摘要:電子商務(EC)在現代商務企業的發展中占有越來越重要的地位。如何利用信息技術掌握更多的商務信息已備受商家們的關注,站點分析技術正是為商家和網站提供了這樣一種有效的分析工具。
本文討論了一些站點分析的相關技術信息和幾種網站分析瀏覽者行為的理論與算法,及數據倉庫的相關理論知識。并對站點日志數據進行了實例分析,并指出了站點分析技術發展的方向。
一、緒論
互聯網技術不斷革新與發展,給全球經濟帶來新的革命,從而也影響著人們的生活。互聯網為企業提供了一種真正屬于自己并面對廣大網民的信息載體,企業通過這一載體,可以自由地將企業的產品、服務等其他相關信息在線。
電子商務就是網上實行各種商務活動的總包裝,種種所謂電子商務解決方案,實際上就是實現各種網上商務活動的硬件與軟件系統。它將影響到每一個人、每一個企業。電子商務的主體是我們每一個人、每一個企業,電子商務發展的過程就是對人們的生活、企業的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數字,它還是一種信息,如果網站能夠從網絡中獲得網民的信息并從中分析其行為誘因,那么就容易掌握網民的需求,從而利用互聯網去創造更多商機。
電子商務站點用戶行為的分析這一問題也因此成為現如今的熱門話題,被人們普遍關心起來,尤其是被眾商家所重視。Web站點的日志數據正以每天數十兆的速度增長。如何分析這些數據,如何從這些大量數據中發現有用的、重要的知識(包括模式、規則、可視化結構等)也成為現在人們最關注的信息。
在此情況下,站點用戶行為分析就可為網站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業廣告點擊情況總括、產品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據不同的頁面內容來分類瀏覽者,以便做出更合理的頁面分類,促使網站逐步向個性化、最優化狀態發展。這一技術對互聯網的發展壯大有著不可忽視的巨大作用,它的發展對信息技術亦將產生深遠的影響。
在電子商務早期階段時,Web站點數據流分析通常是在主頁上安裝計數器以及在一個外部日志文件上運行簡單的統計程序記錄點擊率。但是,簡單的點擊計數既不準確也遠未達到營銷目的所需的詳細程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司Web站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務器的訪問日志。每當用戶在站點上請求一個網頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數據流分析工具的這些最新進展可以使網站獲得有關上網客戶和他們習慣的詳細報告。
二、站點信息統計方法
Web頁面數據主要是半結構化數據,計算機網絡技術和信息技術的飛速發展,使得半結構化數據呈現日益繁榮的趨勢。半結構化數據,是一種介于模式固定的結構化數據,和完全沒有模式的無序數據之間,在查詢前無法預先確定其具體的類型和格式;同時它們相應的數據結構是不固定、不完全或不規則的,即這些數據有的本身就沒有結構,有的只有十分松散的結構,有的數據的結構是隱含的,需要從數據中進行抽取。而有時,盡管數據本身是有精確結構的,但為了一定的目的,而故意忽視它的結構。半結構化數據具有以下五方面的
主要特點:
1.結構是不規則的。包含異構數據、相同的數據信息用不同類型或不同的結構表示。
2.結構是隱含的。如電子文檔SGML格式。
3.結構是部分的,有時部分數據根本無結構,而部分數據只有粗略的結構。
4.指示性結構與約束性結構。傳統的數據庫使用嚴格的分類策略來保護數據。而指示性數據結構是對結構的一種非精確的描述。它可接受所有新數據,代價是要頻繁修改結構。
5.半結構化數據通常在數據存在之后才能通過當前數據歸納出其結構,稱之為事后模式引導。模式有時可被忽略,同時數據與數據模式間的區別逐漸消除。
三、數據分析的方法
Web頁面的數據通常是利用統計模型和數學模型來分析的。使用的模型有線性分析和非線性分析;連續回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統計分析工具能提供可視化功能和分析功能來尋找數據間關系、構造模型來分析、解釋數據。并通過交互式過程和迭代過程用來求精模型,最終開發出最具適應性的模型來將數據轉化為有價值的信息。
知識發現是從數據倉庫的大量數據中篩取信息,尋找經常出現的模式,檢查趨勢并發掘實施。它是分析Web頁面數據的重要方法。知識發現與模式識別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數據倉庫的條目和對象,從中尋找重復出現概率很高的模式。它展示了數據間未知的依賴關系。利用依賴性分析算法可以從某一數據對象的信息來推斷另一數據對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經過依賴性分析,商店認為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數據類,用聚類算法發現一些不知道的數據類或懷疑的數據類。聚類的過程是以某一特定時間為依據,找出一個共享一些公共類別的群體,它稱為無監督學習。分類過程,這是發現一些規定某些商品或時間是否屬于某一特定數據子集的規則。這些數據類很少在關系數據庫中進行定義,因而規范的數據模型中沒有它們的位置。最典型的例子是信用卡核準過程,可確定能否按商品價格和其它標準把某一購買者歸入可接受的那一類中。分類又稱為有監督學習。
3.神經網絡
神經網絡通過學習待分析數據中的模式來構造模型。它對隱式類型進行分類。圖像分析是神經網絡最成功的應用之一。神經網絡用于模型化非線性的、復雜的或噪聲高的數據。一般神經模型由三個層次組成:數據倉庫數據輸入、中間層(各種神經元)和輸出。它通常用恰當的數據庫示例來訓練和學習、校正預測的模型,提高預測結果的準確性。
4.數據挖掘中的關聯規則
關聯規則是數據挖掘的一個重要內容,通常關聯規則反映的是數據間的定性關聯關系。如一個商品交易數據庫,一條記錄表示用戶一次購買的商品種類,每個屬性(A、B……)代表一種商品,每個屬性都是布爾類型的。一條關聯規則的例子是:{A、B}→{D}[2%][60%],規則的含義是“如果用戶購買商品A和B,那么也可能購買商品D,因為同時購買商品A、B和D的交易記錄占總交易數的2%而購買A和B的交易中,有60%的交易也包含D”。規則中60%是規則的信任度,2%是規則的支持度。數據挖掘就是要發現所有滿足用戶定義的最小信任度和支持度閥值限制的關聯規則。數據只是定性地描述一個交易是否包含某商品,而對交易量沒有定量描述,這種布爾類型數據間的關聯規則被稱為定性關聯規則。但數據記錄的屬性往往是數值型或字符型的,這些數據間也存在對決策有幫助的關聯規則,相對于定性關聯規則,這些規則被稱為定量關聯規則。
另外,數據挖掘目前仍面臨著數據質量的問題。由于數據倉庫中的數據來自多個數據源,而在合并中存在很多障礙,如:沒有建立合并視圖所需的公共關鍵字;數據值相互抵觸;元數據的說明不完備或丟失;數據值的不潔凈等等。數據挖掘是在標準化的數據基礎上進行的,因而這些都會嚴重破壞數據的準確性,導致最終決策的失誤。所有這些問題都在等待著人們去發掘更好的解決方法。
參考資料
1.周斌,吳泉源,高洪奎:“用戶訪問模式數據挖掘的模型與算法研究”,《計算機研究與發展》,1999vol.36No.7P.870-875;
2.SrikantR,VuW,AgrawalR.Miningassociationruleswithitemconstrains.IBMAlmadenResearchCenter,TechRep:97.056,1997;
3.ParkJS,ChenM,YuPS.Aneffectivehashbasedalgorithmforminingassociationru1es.In:ACMInternationalConferenceonManagementofData,Caliform,1995;
4.Inmon,WilliamH,BuildingtheDataWarehouse(2nded.).Wiley.NewYork(1996);
5.BrinS,MotwaniR,UllmanJD,Dynamicitemsetcountingandimplicationrulesformarketbasketdata。Inpeckl1amJed.ProceedingoftheACMSIGMODConferenceonManagementofData.ACMPress,Tucson,Arizona,USA,1997.P255-264;
6.程巖,盧濤,黃梯云:“在數據庫中挖掘定量關聯規則的方法研究”,《管理科學學報》,2001-8。
- 上一篇:供電紀檢書記述職報告
- 下一篇:大學生社會實踐工作報告