云計(jì)算數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)研究

時(shí)間:2022-09-15 11:09:12

導(dǎo)語(yǔ):云計(jì)算數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)研究一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

云計(jì)算數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)研究

摘要:在云計(jì)算背景下,海量數(shù)據(jù)之間會(huì)相互影響,影響了既定的關(guān)聯(lián)原則,線性思維占據(jù)主導(dǎo)性地位,數(shù)據(jù)挖掘效果較差。簡(jiǎn)要分析當(dāng)前傳統(tǒng)思維方式下數(shù)據(jù)挖掘平臺(tái)存在的問(wèn)題,并將該思維方式轉(zhuǎn)變?yōu)榉植际剿季S,介紹了在分布式思維下建立數(shù)據(jù)挖掘平臺(tái)的優(yōu)勢(shì),并分析建立、設(shè)計(jì)方案。該方案可以有效解決冗余干擾問(wèn)題,計(jì)算出區(qū)域內(nèi)部的相似程度,在分布式思維數(shù)據(jù)之間產(chǎn)生關(guān)聯(lián)。

關(guān)鍵詞:分布式思維,云計(jì)算數(shù)據(jù)挖掘平臺(tái),架構(gòu)設(shè)計(jì)

云計(jì)算技術(shù)應(yīng)用價(jià)值較高,具有靈活性的特點(diǎn)。但海量數(shù)據(jù)之間會(huì)產(chǎn)生相互干擾,影響了既定的關(guān)聯(lián)原則,需要提出一種基于分布式自適應(yīng)的云計(jì)算數(shù)據(jù)挖掘算法,提高挖掘精度,改善傳統(tǒng)算法中存在的問(wèn)題,完善仿真實(shí)驗(yàn)性能[1]。

1線性思維下數(shù)據(jù)挖掘平臺(tái)存在的問(wèn)題分析

目前,我國(guó)處于信息化時(shí)代,使用互聯(lián)網(wǎng)、移動(dòng)設(shè)備端查詢信息會(huì)產(chǎn)生較多瀏覽痕跡、數(shù)據(jù)等,如何存儲(chǔ)、處理及挖掘數(shù)據(jù)是重要的技術(shù)問(wèn)題。線性數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法是數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)的理論基礎(chǔ),需要運(yùn)用智能化方式處理數(shù)據(jù)庫(kù)中的信息,運(yùn)用可視化技術(shù)、統(tǒng)計(jì)學(xué)知識(shí)、數(shù)據(jù)庫(kù)技術(shù)、模糊識(shí)別、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)和人工智能等多種領(lǐng)域的知識(shí)解決一系列的決策問(wèn)題。以線性思維為主的數(shù)據(jù)挖掘平臺(tái)的設(shè)計(jì)流程主要包含結(jié)果表達(dá)、數(shù)據(jù)挖掘及準(zhǔn)備數(shù)據(jù)三個(gè)過(guò)程。數(shù)據(jù)挖掘平臺(tái)的建立主要分為三個(gè)步驟,首先,應(yīng)確定平臺(tái)建立目標(biāo)及搜集信息的方向,為尋找數(shù)據(jù)挖掘渠道、數(shù)據(jù)處理方式做鋪墊。實(shí)驗(yàn)結(jié)果具有不可預(yù)測(cè)性的特征,技術(shù)人員需要熟練掌握相關(guān)知識(shí),使得相關(guān)領(lǐng)域的用戶及專家明確搜索需求。其次,需要做好數(shù)據(jù)準(zhǔn)備工作,主要包括選擇數(shù)據(jù)、預(yù)處理數(shù)據(jù)和轉(zhuǎn)化數(shù)據(jù)三個(gè)關(guān)鍵步驟。可以通過(guò)對(duì)數(shù)據(jù)的再加工策略提高數(shù)據(jù)挖掘質(zhì)量,通過(guò)分析數(shù)據(jù)的種類,運(yùn)用數(shù)學(xué)模型進(jìn)行數(shù)據(jù)重建對(duì)比。再次,需要建立數(shù)據(jù)之間的關(guān)聯(lián)性,通過(guò)對(duì)比分析得到多組數(shù)據(jù)的共同點(diǎn),結(jié)合用戶瀏覽信息、實(shí)際需求及潛在需求,使用算法尋找特定的模型,創(chuàng)建數(shù)據(jù)挖掘模型。利用智能化工具完成最終的挖掘任務(wù)。由此可見(jiàn),在線性思維情況下,選擇某組數(shù)據(jù)進(jìn)行測(cè)試時(shí)應(yīng)嘗試所有可能的方式,該組數(shù)據(jù)適宜的關(guān)聯(lián)規(guī)則在計(jì)算過(guò)程中逐漸與原本的關(guān)聯(lián)規(guī)則違背,在尋求最優(yōu)化解決方案時(shí),計(jì)算效率較低。

2分布式數(shù)據(jù)挖掘平臺(tái)結(jié)構(gòu)設(shè)計(jì)分析

云計(jì)算互聯(lián)網(wǎng)平臺(tái)主要有兩個(gè)參與主體,包括云和端,可以擺脫原有架構(gòu)的局限性,簡(jiǎn)化網(wǎng)站操作人員及訪問(wèn)人員的操作步驟,創(chuàng)造出更大價(jià)值[2]。

2.1內(nèi)容分發(fā)網(wǎng)絡(luò)實(shí)現(xiàn)云計(jì)算的技術(shù)流派

分配內(nèi)容網(wǎng)絡(luò)能夠避免受到互聯(lián)網(wǎng)中可能會(huì)對(duì)數(shù)據(jù)傳輸穩(wěn)定性造成影響的緩解,篩選出核心內(nèi)容,將其傳遞到核心節(jié)點(diǎn)中,提高內(nèi)容傳輸過(guò)程的穩(wěn)定性。從商業(yè)角度出發(fā),CDN即批發(fā)即零售帶寬及柜機(jī)資源的過(guò)程。為了降低系統(tǒng)的壓力值,需要在互聯(lián)網(wǎng)的節(jié)點(diǎn)處添加新資源,使得CDN廠商能夠從此處承包,也可以從各地IDC處用優(yōu)惠的價(jià)格批發(fā)各種資源,再用零售價(jià)格賣給用戶,利潤(rùn)空間較大。分配內(nèi)容網(wǎng)絡(luò)能夠有效突破性能平靜,確保分發(fā)內(nèi)容的穩(wěn)定性與可靠性。

2.2DNS網(wǎng)關(guān)級(jí)別的超級(jí)代理

為了管理大量網(wǎng)站信息,云計(jì)算平臺(tái)可以通過(guò)DNS的智能切換技術(shù),在使用較為普遍的CS結(jié)構(gòu)兩側(cè)使用智能化技術(shù),提高操作過(guò)程的智能化水平,優(yōu)化操作結(jié)構(gòu),縮短操作反應(yīng)實(shí)踐,創(chuàng)建出新一代的云計(jì)算互聯(lián)網(wǎng)應(yīng)用平臺(tái)。此外,運(yùn)用云計(jì)算的方式可以創(chuàng)建出DNS服務(wù)器集群,具有較大使用價(jià)值。

2.3網(wǎng)站訪問(wèn)日志分析

每個(gè)網(wǎng)站都會(huì)自主管理自己的日志訪問(wèn)記錄信息,需要提升其規(guī)范性。通常情況下,一條標(biāo)準(zhǔn)日志的標(biāo)準(zhǔn)形式為“源地址—訪問(wèn)時(shí)間—訪問(wèn)形式—網(wǎng)址名稱—訪問(wèn)類型—瀏覽器類型—操作系統(tǒng)內(nèi)容—目的操作地址”。可以創(chuàng)建出一個(gè)數(shù)據(jù)倉(cāng)庫(kù),在其中存放所有網(wǎng)站及用戶的訪問(wèn)信息,完成數(shù)據(jù)挖掘任務(wù),革新分配內(nèi)容形式。網(wǎng)站會(huì)分析用戶的網(wǎng)絡(luò)行為特點(diǎn),制定出相應(yīng)的查詢及反饋模式,增強(qiáng)數(shù)據(jù)結(jié)構(gòu)性能,提高系統(tǒng)工作效率。

2.4網(wǎng)站內(nèi)容的動(dòng)態(tài)分發(fā)

除了超級(jí)大網(wǎng),普通網(wǎng)站性能會(huì)隨地域特點(diǎn)產(chǎn)生變化,可以根據(jù)用戶所處地理位置信息將內(nèi)容分配到代理處。在完成分配任務(wù)之后,會(huì)基于云計(jì)算的方式部署互聯(lián)網(wǎng),訪問(wèn)最近的地址,縮短用戶的訪問(wèn)等待時(shí)間,提高用戶使用互聯(lián)網(wǎng)的效率。

2.5根據(jù)用戶行為進(jìn)行智能調(diào)度

數(shù)據(jù)倉(cāng)庫(kù)中儲(chǔ)存著大量的用戶行為特征信息。超級(jí)代理的架構(gòu)將用戶的行為特點(diǎn)作為搜索索引,避免運(yùn)用DNS解析用戶訪問(wèn)過(guò)程,只有經(jīng)過(guò)多次跳轉(zhuǎn)之后才可以訪問(wèn)目標(biāo)網(wǎng)站。網(wǎng)絡(luò)用戶訪問(wèn)網(wǎng)站具有固定性,總數(shù)量較少,可以將其操作行為作為重要依據(jù),設(shè)計(jì)出智能調(diào)度和分配機(jī)制,提高訪問(wèn)速度,增強(qiáng)網(wǎng)站的最大承受能力,豐富網(wǎng)站功能,給用戶帶來(lái)良好的體驗(yàn)感[3]。

3分布式數(shù)據(jù)挖掘平臺(tái)中相關(guān)軟件算法設(shè)計(jì)分析

冗余消除算法可對(duì)數(shù)據(jù)進(jìn)行分類處理,消除傳統(tǒng)算法中數(shù)據(jù)挖掘平臺(tái)信息存在多余、種類繁雜或無(wú)關(guān)性、干擾性較強(qiáng)等情況,優(yōu)化傳統(tǒng)算法下建立的數(shù)據(jù)挖掘平臺(tái)的不足之處。

3.1冗余消除算法的設(shè)計(jì)規(guī)則分析

冗余消除算法能夠消除在云計(jì)算方式下由于數(shù)據(jù)關(guān)聯(lián)性而產(chǎn)生的冗余干擾,在商業(yè)化推薦系統(tǒng)中具有重要價(jià)值。首先,基于用戶的冗余消除算法需要對(duì)用戶的日常瀏覽信息進(jìn)行收集,判斷用戶個(gè)人需求并進(jìn)行評(píng)分,使得同等分值之間的用戶需求共享推薦。其次,基于相互的冗余消除算法會(huì)將所有用戶瀏覽商品、購(gòu)買商品次數(shù)作為判斷其對(duì)商品的喜好程度,并推薦類似商品,計(jì)算該商品種類中,用戶喜好商品與其他的相似程度。

3.2協(xié)同過(guò)濾相似度計(jì)算方法

使用向量模型計(jì)算出數(shù)據(jù)的相似程度,計(jì)算出向量之間的距離,根據(jù)遠(yuǎn)近成都判斷相似度高低。為了判斷關(guān)聯(lián)程度,可以計(jì)算出兩個(gè)向量的相關(guān)關(guān)系。對(duì)于稀疏性較高的用戶,該矩陣的精確程度較低,難以達(dá)到理想效果,可以運(yùn)用余弦相似度算法解決此類問(wèn)題。

3.3冗余消除過(guò)程設(shè)計(jì)

若計(jì)算結(jié)果較為相似,可分析數(shù)據(jù)的計(jì)算過(guò)程及初始數(shù)據(jù)是否存在相似部分,給每個(gè)變量分配一定權(quán)重,設(shè)置調(diào)和參數(shù)。平均絕對(duì)誤差是衡量用戶實(shí)際數(shù)值和測(cè)量值之間的絕對(duì)誤差水平,是重要的冗余消除算法評(píng)判標(biāo)準(zhǔn)之一。命中率標(biāo)準(zhǔn)包括查準(zhǔn)率和查全率,網(wǎng)絡(luò)數(shù)據(jù)分為推薦和不推薦兩個(gè)部分。以用戶搜索查找商品為例,搜索引擎中輸入的是全類商品或精準(zhǔn)到某品牌、某款式,代表著該用戶對(duì)于同類商品的需求程度和該種商品的喜好,反映其對(duì)于數(shù)據(jù)查找的廣泛性和搜索精準(zhǔn)性的需要,依據(jù)此可選擇是否推薦同類商品,若精準(zhǔn)性需求較高,則不建議推薦。在選擇算法的過(guò)程中,可積極引入新式算法降低權(quán)重,提高數(shù)據(jù)挖掘平臺(tái)的精確度,使其分析數(shù)據(jù)能力提升。

4結(jié)語(yǔ)

互聯(lián)網(wǎng)信息技術(shù)處于不斷發(fā)展過(guò)程中,如何處理海量數(shù)據(jù)信息是重大難題。可以基于大數(shù)據(jù)處理技術(shù)建立起數(shù)據(jù)處理與挖掘平臺(tái),使用bookcrossing數(shù)據(jù)集進(jìn)行測(cè)試,運(yùn)用獎(jiǎng)券的方式改進(jìn)傳統(tǒng)算法模型,增強(qiáng)改進(jìn)后算法的計(jì)算能力,使其貼合現(xiàn)代社會(huì)需求,更加便捷化、智能化。

參考文獻(xiàn)

[1]高鋒陽(yáng),曾林,李昭君,等.分布式智能協(xié)同和云計(jì)算相結(jié)合的配電網(wǎng)故障選線新方法[J].電網(wǎng)技術(shù),2021,45(8):2969-2978.

[2]周東清,彭世玉,程春田,等.梯級(jí)水電站群長(zhǎng)期優(yōu)化調(diào)度云計(jì)算隨機(jī)動(dòng)態(tài)規(guī)劃算法[J].中國(guó)電機(jī)工程學(xué)報(bào),2017,37(12):3437-3448;3671.

[3]馬瑞,周謝,彭舟,等.考慮氣溫因素的負(fù)荷特性統(tǒng)計(jì)指標(biāo)關(guān)聯(lián)特征數(shù)據(jù)挖掘[J].中國(guó)電機(jī)工程學(xué)報(bào),2015,35(1):43-51.

作者:王哲 趙爽 單位:鐵法煤業(yè)集團(tuán)大數(shù)據(jù)運(yùn)營(yíng)有限責(zé)任公司