&

導(dǎo)語(yǔ)：數(shù)據(jù)挖掘技術(shù)影視智能推薦算法分析一文來(lái)源于網(wǎng)友上傳，不代表本站觀點(diǎn)，若需要原創(chuàng)文章可咨詢客服老師，歡迎參考。

數(shù)據(jù)挖掘技術(shù)影視智能推薦算法分析

摘要：針對(duì)當(dāng)前影視智能推薦算法的推薦誤差大、推薦時(shí)間長(zhǎng)等局限性，以提高影視智能推薦精度為目標(biāo)，獲得理想的影視智能推薦結(jié)果，提出基于數(shù)據(jù)挖掘技術(shù)的影視智能推薦算法。該算法首先對(duì)影視智能推薦的工作原理進(jìn)行分析，指出各種影視智能推薦算法的弊端；然后收集大量的影視智能推薦數(shù)據(jù)，根據(jù)數(shù)據(jù)得到用戶⁃影視評(píng)分矩陣及相似度計(jì)算公式；最后引入數(shù)據(jù)挖掘技術(shù)建立影視智能推薦模型，并與其他影視智能推薦算法進(jìn)行仿真對(duì)比實(shí)驗(yàn)，結(jié)果表明，該方法是一種精度高、速度快的影視智能推薦算法，相對(duì)于其他影視智能推薦算法，該算法的影視智能推薦整體效果更優(yōu)，具有十分廣泛的應(yīng)用前景。

關(guān)鍵詞：影視推薦；人工智能技術(shù)；大數(shù)據(jù)分析；數(shù)據(jù)挖掘；用戶評(píng)分矩陣；仿真測(cè)試；推薦效率

近年來(lái)，隨著移動(dòng)通信技術(shù)和無(wú)線網(wǎng)絡(luò)技術(shù)的發(fā)展，它們已經(jīng)滲透到人們生活的各個(gè)領(lǐng)域，移動(dòng)通信已經(jīng)影響到了人們生活的各個(gè)方面[1]。在新媒體技術(shù)的影響下，人們將一些歷史題材改編成了電視、電影，影視數(shù)據(jù)的數(shù)量大幅度增加，隨著人們生活水平的不斷提高對(duì)精神生活要求越來(lái)越高，而影視推薦網(wǎng)站層出不窮人們要在短時(shí)間內(nèi)找到自己喜歡的影視作品十分困難故出現(xiàn)了“影視過(guò)載”問(wèn)題[2]。為了解決“影視過(guò)載”問(wèn)題，出現(xiàn)了影視智能化推薦系統(tǒng)，而影視推薦算法是最為核心的內(nèi)容[3⁃5]。為了獲得理想的影視智能推薦效果，本文提出了基于數(shù)據(jù)挖掘技術(shù)的影視智能推薦算法，并與其他方法進(jìn)行影視推薦對(duì)比測(cè)試，結(jié)果表明，本文方法是一種精度高、速度快的影視智能推薦方法，相對(duì)其他方法，本文影視推薦方法具有十分明顯的優(yōu)越性。

1影視智能推薦算法的相關(guān)研究

針對(duì)影視推薦問(wèn)題，國(guó)內(nèi)外學(xué)者進(jìn)行了大量深入的研究，當(dāng)前存在許多影視推薦系統(tǒng)[6]。一個(gè)影視推薦系統(tǒng)大致包括：用戶使用影視的歷史記錄、影視推薦算法、影視推薦結(jié)果的服務(wù)決策信息，其中影視推薦算法是核心，也是最為關(guān)鍵的部分。當(dāng)前推薦算法大致可以劃分為4類：基于協(xié)同過(guò)濾的影視推薦算法、基于內(nèi)容的影視推薦算法、基于關(guān)聯(lián)規(guī)則的影視推薦算法、基于知識(shí)的影視推薦算法[7]。其中，協(xié)同過(guò)濾的影視推薦算法是最早的算法，可以細(xì)化為基于內(nèi)存的影視推薦算法和基于模型的影視推薦算法，在實(shí)際中該類算法不關(guān)心用戶歷史行為記錄，因此存在冷啟動(dòng)和稀疏性問(wèn)題，同時(shí)，影視推薦時(shí)間長(zhǎng)，無(wú)法進(jìn)行在線影視推薦[8⁃10]。基于內(nèi)容的影視推薦算法模擬信息檢索和過(guò)濾的過(guò)程，根據(jù)用戶的偏好和影視內(nèi)容之間的匹配度進(jìn)行影視推薦，該類算法的自學(xué)習(xí)能力差，無(wú)法發(fā)現(xiàn)潛在的用戶；基于關(guān)聯(lián)規(guī)則的影視推薦算法工作過(guò)程簡(jiǎn)單，影視推薦實(shí)時(shí)性強(qiáng)，但是存在冷啟動(dòng)和稀疏性問(wèn)題，同時(shí)一旦規(guī)則太多，那么影視推薦效率就比較低；基于知識(shí)的影視推薦算法是針對(duì)特定領(lǐng)域的影視制定推薦算法，因此通用性比較差[11⁃13]。綜合當(dāng)前影視推薦算法的研究現(xiàn)狀可以發(fā)現(xiàn)，每一種影視推薦算法或多或少存在一定的不足和局限性，因此影視推薦算法研究面臨巨大的挑戰(zhàn)[13⁃16]。

2基于數(shù)據(jù)挖掘技術(shù)的影視智能推薦算法

2.1影視數(shù)據(jù)的采集與保存

隨著計(jì)算機(jī)網(wǎng)絡(luò)的不斷發(fā)展，許多公司將一些影視數(shù)據(jù)發(fā)送到網(wǎng)絡(luò)上，使得影視數(shù)據(jù)急劇增加，當(dāng)前影視數(shù)據(jù)呈現(xiàn)大規(guī)模、海量特征，采用傳統(tǒng)單機(jī)平臺(tái)進(jìn)行影視推薦效率極低。本文首先采集大量的影視數(shù)據(jù)，然后對(duì)影視數(shù)據(jù)進(jìn)行預(yù)處理，并將預(yù)處理的影視數(shù)據(jù)保存在云平臺(tái)的分布式文件系統(tǒng)中。分布式文件系統(tǒng)具有速度快、處理能力強(qiáng)等優(yōu)點(diǎn)，可以存儲(chǔ)海量的影視數(shù)據(jù)。一個(gè)分布式文件系統(tǒng)包括一個(gè)NameNode和多個(gè)DataNode，其中NameNode是主服務(wù)器，它可以接收用戶請(qǐng)求，并對(duì)文件進(jìn)行管理，而DataNode是多個(gè)計(jì)算機(jī)，主要用來(lái)存儲(chǔ)數(shù)據(jù)，分布式文件系統(tǒng)的基本結(jié)構(gòu)具體如圖1所示。圖1分布式文件系統(tǒng)的基本結(jié)構(gòu)

2.2影視數(shù)據(jù)的預(yù)處理

由于影視數(shù)據(jù)保存在分布式文件系統(tǒng)中，因此需要生成用戶對(duì)影視的評(píng)分?jǐn)?shù)據(jù)。用戶對(duì)影視的評(píng)分?jǐn)?shù)據(jù)由三部分組成：用戶編號(hào)（U_ID）、影視編號(hào)（M_ID）、用戶對(duì)影視的評(píng)分（Score），本文采用云計(jì)算技術(shù)中的Map/Reduce實(shí)現(xiàn)，生成用戶向量和影視向量，其中用戶向量是一個(gè)用戶對(duì)所有影視的評(píng)分，影視向量是所有用戶對(duì)一個(gè)影視的評(píng)分。2.2.1用戶向量生成步驟Step1：從分布式文件系統(tǒng)中讀取影視數(shù)據(jù)，并計(jì)算用戶的影視評(píng)分。Step2：通過(guò)Map將用戶對(duì)影視的評(píng)分分為兩部分：U_ID和M_ID、Score，其中，U_ID作為Map的key，M_ID、Score作為Map的value，它們組成<key，value>。Step3：根據(jù)key進(jìn)行排序，將key相同的用戶的影視評(píng)分放在一起。Step4：Reduce對(duì)相同用戶的影視評(píng)分?jǐn)?shù)據(jù)進(jìn)行整合，得到一個(gè)用戶對(duì)所有電影評(píng)分的集合。Step5：構(gòu)建用戶⁃影視評(píng)分矩陣，并計(jì)算它們的平均值，從而產(chǎn)生用戶評(píng)分向量。具體步驟如圖2所示2.2.2影視向量的生成步驟Step1：將用戶評(píng)分向量作為Map的輸入，對(duì)用戶評(píng)分向量進(jìn)行分解，將M_ID作為key，將U_ID、Score作為Map的value，形成<key，value>。Step2：根據(jù)key進(jìn)行排序，將key相同的用戶數(shù)據(jù)放在一起。Step3：Reduce對(duì)用戶數(shù)據(jù)進(jìn)行整合，將得到的key作為M_ID，vU_ID、Score作為value，即為所有對(duì)影視評(píng)過(guò)分的用戶集合。Step4：將生成的數(shù)據(jù)保存在分布式文件系統(tǒng)中。具體如圖3所示。

2.3用戶⁃影視評(píng)分的構(gòu)建

用戶對(duì)影視的評(píng)分主要通過(guò)興趣程度描述，假設(shè)有m個(gè)用戶，對(duì)n部影視進(jìn)行評(píng)價(jià)和打分，第i個(gè)用戶對(duì)第j部影視的評(píng)分分值為rij，本文采用Movielens的5分制作為評(píng)分標(biāo)準(zhǔn)，分值越高表示用戶對(duì)該部影視越感興趣，那么用戶⁃影視評(píng)分矩陣可以表示為：

2.4相似度計(jì)算

對(duì)于用戶⁃影視評(píng)分矩陣，根據(jù)用戶向量之間的距離估計(jì)用戶之間的相似度，用戶向量之間的距離越近，表示用戶的相似度越高，當(dāng)前相似度的計(jì)算方式主要有：1）基于歐氏距離的相似度式中：rˉu表示用戶u共同評(píng)過(guò)分的影視的平均分；rˉv表示用戶v共同評(píng)過(guò)分的影視的平均分。本文采用皮爾遜相關(guān)系數(shù)計(jì)算用戶相似度。

2.5最近鄰算法查找到前k個(gè)最近鄰“鄰居”

對(duì)于給定的訓(xùn)練樣本集，最近鄰算法根據(jù)樣本之間的距離找到最近的k個(gè)鄰居樣本，將k個(gè)鄰居頻率最高類別作為待識(shí)別類別。本文采用皮爾遜相關(guān)系數(shù)計(jì)算用戶的相似度，然后根據(jù)相似度值進(jìn)行排序，選擇前k個(gè)最近鄰“鄰居”生成目標(biāo)用戶的最近鄰用戶集合。

2.6計(jì)算預(yù)測(cè)評(píng)分并產(chǎn)生推薦

計(jì)算用戶預(yù)測(cè)評(píng)分，并根據(jù)用戶預(yù)測(cè)評(píng)分產(chǎn)生影視推薦結(jié)果，采用中心加權(quán)平均值的方法計(jì)算用戶u對(duì)未評(píng)分影視i的預(yù)測(cè)評(píng)分，具體如下。

3影視智能推薦算法的性能測(cè)試與分析

3.1影視智能推薦實(shí)驗(yàn)數(shù)據(jù)集

為了測(cè)試基于數(shù)據(jù)挖掘技術(shù)的影視智能推薦算法的性能，采用影視推薦經(jīng)典數(shù)據(jù)集——Movielens數(shù)據(jù)集作為測(cè)試對(duì)象，從中選擇Movielens⁃100k進(jìn)行具體仿真實(shí)驗(yàn)，選擇80%的數(shù)據(jù)作為訓(xùn)練樣本集合，20%的數(shù)據(jù)作為測(cè)試樣本集合，Movielens的三組不同規(guī)模的數(shù)據(jù)集具體如表1所示。

3.2影視智能推薦實(shí)驗(yàn)環(huán)境

影視智能推薦實(shí)驗(yàn)平臺(tái)包括5個(gè)節(jié)點(diǎn)、1臺(tái)服務(wù)器、4臺(tái)普通計(jì)算機(jī)，具體配置如表2所示，采用Java語(yǔ)言實(shí)現(xiàn)影視智能推薦算法。在相同條件下，選擇文獻(xiàn)[12⁃13]的影視智能推薦算法進(jìn)行對(duì)比實(shí)驗(yàn)，選擇影視智能推薦精度和時(shí)間作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)。

3.3影視智能推薦精度對(duì)比

采用三種方法對(duì)訓(xùn)練樣本集合進(jìn)行學(xué)習(xí)，建立影視智能推薦模型，然后對(duì)測(cè)試樣本集合進(jìn)行分析，統(tǒng)計(jì)每一種方法對(duì)每一個(gè)數(shù)據(jù)集的推薦精度，結(jié)果如圖4所示。從圖4可以看出，相對(duì)于文獻(xiàn)[12⁃13]的影視智能推薦算法，本文算法的影視智能推薦精度大幅度提升，減少了影視智能推薦誤差。

3.4影視智能推薦效率對(duì)比

采用單機(jī)平臺(tái)的影視智能推薦算法進(jìn)行對(duì)比實(shí)驗(yàn)，統(tǒng)計(jì)兩種方法的影視智能推薦時(shí)間，結(jié)果如圖5所示。從圖5可以發(fā)現(xiàn)，相對(duì)于單機(jī)平臺(tái)，本文算法的影視智能推薦時(shí)間明顯減少，這是因?yàn)楸疚囊肓舜髷?shù)據(jù)分析的云計(jì)算平臺(tái)，提高了影視智能推薦效率。

3.5影視智能推薦算法的通用性測(cè)試

為了測(cè)試影視智能推薦算法的通用性，通過(guò)移動(dòng)網(wǎng)絡(luò)采集大量的影視數(shù)據(jù)，將它們劃分為100類，統(tǒng)計(jì)本文算法對(duì)100類影視的推薦精度，結(jié)果如圖6所示。從圖6可以看出，本文算法的平均影視智能推薦精度超過(guò)了95%，獲得了令人滿意的推薦結(jié)果，能夠適應(yīng)移動(dòng)環(huán)境下的影視推薦應(yīng)用要求。

4結(jié)語(yǔ)

影視智能推薦是當(dāng)前人工智能技術(shù)中的研究熱點(diǎn)，針對(duì)傳統(tǒng)影視智能推薦算法存在的弊端，為了提高影視智能推薦的精度，本文提出基于數(shù)據(jù)挖掘技術(shù)的影視智能推薦算法。采用多個(gè)影視數(shù)據(jù)集合進(jìn)行仿真測(cè)試，結(jié)果表明，相對(duì)于其他影視智能推薦算法，本文方法獲得了較高精度的影視智能推薦結(jié)果，影視智能推薦效率得以改善，具有十分廣泛的應(yīng)用前景。

參考文獻(xiàn)

[1]陳琳娜.影視作品影響力評(píng)價(jià)指標(biāo)體系和評(píng)價(jià)方法研究[J].南京藝術(shù)學(xué)院學(xué)報(bào)（音樂(lè)與表演），2017，22（4）：165⁃174.

[2]鄧云，馮嘉禮.基于定性映射的影視推薦系統(tǒng)的應(yīng)用與研究[J].現(xiàn)代計(jì)算機(jī)（專業(yè)版），2014（2）：3⁃7.

[3]丁家滿，沈書琳，賈連印，等.一種基于協(xié)同過(guò)濾和混合相似性模型的推薦算法[J].上海理工大學(xué)學(xué)報(bào)，2020，42（3）：275⁃282.

[4]劉曉飛，朱斐，伏玉琛，等.基于用戶偏好特征挖掘的個(gè)性化推薦算法[J].計(jì)算機(jī)科學(xué)，2020，47（4）：50⁃53.

[5]羅國(guó)前，劉志勇，張琳，等.移動(dòng)環(huán)境下基于情境感知的個(gè)性化影視推薦算法研究[J].計(jì)算機(jī)應(yīng)用研究，2020，37（5）：1306⁃1310.

[6]王珊珊.智能推薦系統(tǒng)在個(gè)性化數(shù)據(jù)挖掘中的應(yīng)用研究[J].山東農(nóng)業(yè)工程學(xué)院學(xué)報(bào)，2019，36（6）：28⁃29.

[7]王曉通.大數(shù)據(jù)背景下電影智能推送的“算法”實(shí)現(xiàn)及其潛在問(wèn)題[J].當(dāng)代電影，2019（5）：64⁃70.

[8]王運(yùn)，倪靜.基于用戶行為序列的概率矩陣分解推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng)，2020，41（7）：1357⁃1362.

[9]王忠，周慶標(biāo)，方杰，等.社會(huì)標(biāo)簽情感分析的個(gè)性化影視推薦算法研究[J].電聲技術(shù)，2012，36（7）：58⁃63.

[10]徐紅艷，趙宏，王嶸冰，等.融合用戶相似度的影視推薦系統(tǒng)研究[J].遼寧大學(xué)學(xué)報(bào)（自然科學(xué)版），2018，45（3）：193⁃200.

[11]陽(yáng)甫軍，李博.基于協(xié)同過(guò)濾的影視營(yíng)銷推薦算法研究[J].現(xiàn)代商貿(mào)工業(yè)，2019，40（17）：52⁃53.

[12]尤耀華，吳文琦.基于矩陣分解的感知興趣點(diǎn)智能推薦算法仿真[J].計(jì)算機(jī)仿真，2020，37（2）：463⁃466.

[13]于亞新，劉夢(mèng)，張宏宇.Twitter社交網(wǎng)絡(luò)用戶行為理解及個(gè)性化服務(wù)推薦算法研究[J].計(jì)算機(jī)研究與發(fā)展，2020，57（7）：1369⁃1380.

[14]李家華.基于大數(shù)據(jù)的人工智能跨境電商導(dǎo)購(gòu)平臺(tái)信息個(gè)性化推薦算法[J].科學(xué)技術(shù)與工程，2019，19（14）：280⁃285.

[15]秦瑩.基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)移動(dòng)支付風(fēng)險(xiǎn)預(yù)測(cè)[J].現(xiàn)代電子技術(shù)，2020，43（21）：106⁃109.

[16]潘瑩，王君.數(shù)據(jù)挖掘的光纖光柵傳感器復(fù)用解調(diào)技術(shù)[J].激光雜志，2020，41（10）：187⁃191.

作者：王小青蘇鋒蔡傳根單位：東北大學(xué)秦皇島分校管理學(xué)院安徽理工大學(xué)

數(shù)據(jù)挖掘技術(shù)影視智能推薦算法分析

熱門標(biāo)簽

相關(guān)文章

精品范文