大數(shù)據(jù)下數(shù)據(jù)挖掘技術(shù)的算法
時(shí)間:2022-10-31 09:45:11
導(dǎo)語(yǔ):大數(shù)據(jù)下數(shù)據(jù)挖掘技術(shù)的算法一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
在大數(shù)據(jù)背景下,許多傳統(tǒng)科學(xué)技術(shù)的發(fā)展達(dá)到了新的高度,同時(shí)也衍生出一些新興技術(shù),這些推動(dòng)著互聯(lián)網(wǎng)行業(yè)的前行。新技術(shù)的發(fā)展也伴隨著新問(wèn)題的產(chǎn)生,現(xiàn)有的數(shù)據(jù)處理技術(shù)難以滿足大數(shù)據(jù)發(fā)展的需要,在數(shù)據(jù)保護(hù)等方面依舊存在著一定的風(fēng)險(xiǎn)。因此,進(jìn)一步完善大數(shù)據(jù)技術(shù)是當(dāng)下需要攻克的難題。本文主要進(jìn)行了大數(shù)據(jù)的簡(jiǎn)單引入,介紹數(shù)據(jù)挖掘技術(shù)及其應(yīng)用,分析了當(dāng)下的發(fā)展進(jìn)度和面臨的困難。
1大數(shù)據(jù)的相關(guān)引入
1.1大數(shù)據(jù)的概念。大數(shù)據(jù)主要指?jìng)鹘y(tǒng)數(shù)據(jù)處理軟件無(wú)法處理的數(shù)據(jù)集,大數(shù)據(jù)有海量、多樣、高速和易變四大特點(diǎn),通過(guò)大數(shù)據(jù)的使用,可以催生出新的信息處理形式,實(shí)現(xiàn)信息挖掘的有效性。大數(shù)據(jù)技術(shù)存在的意義不僅在于收集海量的信息,更在于專業(yè)化的處理和分析,將信息轉(zhuǎn)化為數(shù)據(jù),從數(shù)據(jù)中提取有價(jià)值的知識(shí)。大數(shù)據(jù)分析與云計(jì)算關(guān)系密切,數(shù)據(jù)分析必須依托于云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)等。1.2大數(shù)據(jù)的特點(diǎn)。伴隨著越來(lái)越多的學(xué)者投入到對(duì)大數(shù)據(jù)的研究當(dāng)中,其特點(diǎn)也逐漸明晰,都廣泛的提及了這四個(gè)特點(diǎn)。(1)海量的數(shù)據(jù)規(guī)模,信息的數(shù)據(jù)體量明顯區(qū)別于以往的GB、TB等計(jì)量單位,在大數(shù)據(jù)領(lǐng)域主要指可以突破IZP的數(shù)量級(jí)。(2)快速的數(shù)據(jù)流轉(zhuǎn),大數(shù)據(jù)作用的領(lǐng)域時(shí)刻處在數(shù)據(jù)更新的環(huán)境下,高效快速的分析數(shù)據(jù)是保證信息處理有效的前提。(3)多樣的數(shù)據(jù)類型,廣泛的數(shù)據(jù)來(lái)源催生出更加多樣的數(shù)據(jù)結(jié)構(gòu)。(4)價(jià)值低密度,也是大數(shù)據(jù)的核心特征,相較于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)更加多變、模糊,給數(shù)據(jù)分析帶來(lái)困擾,從而難以從中高密度的取得有價(jià)值的信息。1.3大數(shù)據(jù)的結(jié)構(gòu)。大數(shù)據(jù)主要分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種數(shù)據(jù)結(jié)構(gòu)。結(jié)構(gòu)化一般指類似于數(shù)據(jù)庫(kù)的數(shù)據(jù)管理模式。半結(jié)構(gòu)化具有一定的結(jié)構(gòu)性,但相比結(jié)構(gòu)化來(lái)說(shuō)更加靈活多變。目前非結(jié)構(gòu)化數(shù)據(jù)占據(jù)所有數(shù)據(jù)的70%-80%,原因在于互聯(lián)網(wǎng)上的信息內(nèi)容多種多樣,暫時(shí)無(wú)法找到有序的存儲(chǔ)歸類方法。1.4大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)是指如何從各種類型的數(shù)據(jù)中,獲得有利用價(jià)值的信息,其中大數(shù)據(jù)技術(shù)包括數(shù)據(jù)收集、數(shù)據(jù)存取、數(shù)據(jù)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)測(cè)和結(jié)果呈現(xiàn)。在大數(shù)據(jù)的生命周期中,數(shù)據(jù)收集處于第一階段,主要來(lái)源有管理信息系統(tǒng)、Web信息系統(tǒng)等。根據(jù)數(shù)據(jù)結(jié)構(gòu)類型不同,大數(shù)據(jù)的存取采用三種不同的形式,這樣有利于其他技術(shù)的應(yīng)用。數(shù)據(jù)架構(gòu)源于谷歌提出的一種基于軟件的可靠文件存儲(chǔ)體系GFS(Google文件系統(tǒng)),相應(yīng)推出的還有MapReduce計(jì)算模型,二者共同解決了當(dāng)時(shí)的文件存儲(chǔ)和運(yùn)算問(wèn)題。而后隨著需求的不斷增多,有學(xué)者基于谷歌的研究,開(kāi)發(fā)出可以滿足更多需求的Hadoop。
2數(shù)據(jù)挖掘技術(shù)
2.1數(shù)據(jù)挖掘技術(shù)以及云計(jì)算。如今全球每年都有數(shù)十億人使用著計(jì)算機(jī)等電子設(shè)備,并產(chǎn)生了龐大的數(shù)據(jù),各行各業(yè)都已經(jīng)被數(shù)據(jù)所滲透,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘已成為不可或缺的技術(shù)。數(shù)據(jù)挖掘通過(guò)統(tǒng)計(jì)、在線分析、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)從海量數(shù)據(jù)中搜索隱藏于其中的信息這一過(guò)程。云計(jì)算是分布計(jì)算的其中一種,通常是指:通過(guò)網(wǎng)絡(luò)搜集共享計(jì)算資源,并以最低的管理代價(jià)和最精準(zhǔn)的計(jì)算方式獲取結(jié)果的新型IT運(yùn)算模式。也就是說(shuō)云計(jì)算技術(shù)將龐大的數(shù)據(jù)計(jì)算處理程序拆分為一個(gè)個(gè)小程序,再通過(guò)多個(gè)服務(wù)器分別計(jì)算、處理和分析,最后將結(jié)果匯總并返回給用戶。這項(xiàng)技術(shù)可以在短時(shí)間內(nèi)迅速完成海量的數(shù)據(jù)處理,從而為日益更新的互聯(lián)網(wǎng)服務(wù)。2.2數(shù)據(jù)挖掘的發(fā)展現(xiàn)狀。從最早的數(shù)據(jù)庫(kù)技術(shù),到如今逐漸發(fā)展成熟的大數(shù)據(jù)技術(shù),其目的都是實(shí)現(xiàn)數(shù)據(jù)的高效管理和有效利用。數(shù)據(jù)在我們身邊無(wú)處不在,數(shù)據(jù)的收集已經(jīng)不再是困擾我們的難題,如何將隱藏在數(shù)據(jù)背后的信息高效率的挖掘出來(lái),才是我們需要探索的道路。如今數(shù)據(jù)挖掘技術(shù)已發(fā)展為:數(shù)據(jù)源提供數(shù)據(jù),再將預(yù)處理的數(shù)據(jù)整合成適用的模式,由模式分析出這些數(shù)據(jù)中有用的知識(shí)。2.3數(shù)據(jù)挖掘中的經(jīng)典算法。2.3.1C4.5算法C4.5算法是在決策樹(shù)算法的基礎(chǔ)之上改進(jìn)的,根據(jù)對(duì)目標(biāo)變量產(chǎn)生的效果的不同而構(gòu)建的分類規(guī)則,其原理是根據(jù)每次選擇一個(gè)特征或分裂點(diǎn)作為當(dāng)前節(jié)點(diǎn)的分類條件。C4.5算法繼承了決策樹(shù)算法的優(yōu)點(diǎn):過(guò)程可見(jiàn)、操作簡(jiǎn)便、準(zhǔn)確率高,可同時(shí)也有難以基于組合的形式發(fā)現(xiàn)規(guī)律。2.3.2K-Means算法即K均值聚類算法K均值聚類算法顧名思義是一種聚類算法,將n個(gè)對(duì)象根據(jù)屬性分為k個(gè)分割,計(jì)算出每個(gè)對(duì)象與各個(gè)種子聚類間的距離,然后將每類對(duì)象分配給最近的聚類中心,這樣每個(gè)聚類中心再不斷重復(fù)以上操作以達(dá)到某個(gè)終止條件。這種算法的優(yōu)點(diǎn)是容易實(shí)現(xiàn),但在大規(guī)模數(shù)據(jù)的運(yùn)用上效率較低,一般適用于數(shù)值型數(shù)據(jù)。
3最新數(shù)據(jù)挖掘技術(shù)及其應(yīng)用
在新時(shí)代大數(shù)據(jù)的發(fā)展中,信息數(shù)據(jù)在我們的生活中無(wú)處不在,衣、食、住、行中都有大數(shù)據(jù)技術(shù)作為支撐,從“暗處”給用戶提供幫助。隨著大數(shù)據(jù)的出現(xiàn)到發(fā)展為現(xiàn)階段互聯(lián)網(wǎng)不可缺少的一部分,我們生活中大多數(shù)傳統(tǒng)的統(tǒng)計(jì)、計(jì)算、分析方法已無(wú)形中被大數(shù)據(jù)取代。3.1數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用。在信息化發(fā)展如此迅速的時(shí)代,金融信息數(shù)據(jù)化已成為必然趨勢(shì),各種互聯(lián)網(wǎng)金融企業(yè)如雨后春筍般出現(xiàn),給傳統(tǒng)金融帶來(lái)了不小的沖擊。線上支付、P2P模式的網(wǎng)貸,甚至于股票期貨,都已完成從傳統(tǒng)數(shù)據(jù)模式向大數(shù)據(jù)技術(shù)的更新。大數(shù)據(jù)時(shí)代給金融行業(yè)帶來(lái)了全新的一面,可以為客戶分類、風(fēng)險(xiǎn)評(píng)估等提供更高層次的參考價(jià)值。利用有效地?cái)?shù)據(jù)分析把控客戶類別和客戶需求,從而提高經(jīng)濟(jì)效益和服務(wù)質(zhì)量,為金融行業(yè)的發(fā)展提供更廣闊的平臺(tái)。3.2數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用。教育數(shù)據(jù)挖掘(EducationDataMining)應(yīng)用了多個(gè)大數(shù)據(jù)技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、人工智能與機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等。對(duì)教育原始數(shù)據(jù)進(jìn)行分析、構(gòu)建數(shù)據(jù)模型,從而有效地預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)趨勢(shì)。也為互聯(lián)網(wǎng)教育提供發(fā)展的基礎(chǔ),實(shí)現(xiàn)線上教育系統(tǒng)的普及和有效應(yīng)用,增加新型的學(xué)習(xí)方式。同時(shí)教育信息數(shù)據(jù)化也可以進(jìn)行全面的、精準(zhǔn)的學(xué)習(xí)分析,提供有理論數(shù)據(jù)支撐的分析結(jié)果,有利于學(xué)生的自主學(xué)習(xí)和問(wèn)題分析。
4大數(shù)據(jù)的發(fā)展趨勢(shì)
大數(shù)據(jù)時(shí)代的來(lái)臨給我們帶來(lái)了全新的發(fā)展模式,同時(shí)也催生出許多新興行業(yè),如云計(jì)算、人工智能等。大數(shù)據(jù)技術(shù)如今已被應(yīng)用到商業(yè)、工業(yè)等領(lǐng)域,更是諸多新領(lǐng)域的基礎(chǔ),其中機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,研究方向是使計(jì)算機(jī)在沒(méi)有明確代碼的條件下自主學(xué)習(xí),它所運(yùn)用的原理就是大數(shù)據(jù)技術(shù)。在科學(xué)領(lǐng)域,大數(shù)據(jù)也是必不可少的計(jì)算方式,它擁有多種不同的算法,可適應(yīng)性的解決一系列科學(xué)研究中的計(jì)算難題。在信息技術(shù)發(fā)展如此迅速的今天,大數(shù)據(jù)技術(shù)依然面臨著許多挑戰(zhàn),龐大的數(shù)據(jù)資源,它的儲(chǔ)存和保護(hù)是長(zhǎng)久以來(lái)人們需要克服的難題。近幾年數(shù)據(jù)泄露的消息比比皆是,大小企業(yè)都無(wú)法免受影響,而唯一措施就是從源頭阻止信息的泄露。盜取數(shù)據(jù)的方法在日益更新,保護(hù)數(shù)據(jù)就更難上加難,所以完善企業(yè)自身的安全防范能力,提前做好屏障保護(hù),是大數(shù)據(jù)應(yīng)用上的重要環(huán)節(jié)。
5結(jié)束語(yǔ)
總而言之,在信息技術(shù)發(fā)展如此迅速的時(shí)代,大數(shù)據(jù)的廣泛應(yīng)用已成為大勢(shì)所趨,從最早運(yùn)用大數(shù)據(jù)進(jìn)行簡(jiǎn)單的分析,作為一種論據(jù)為科學(xué)研究提供數(shù)據(jù)支撐,到如今大數(shù)據(jù)成為互聯(lián)網(wǎng)技術(shù)的基石,操縱龐大的數(shù)據(jù)資源。可以說(shuō),大數(shù)據(jù)技術(shù)已走在當(dāng)今科技發(fā)展的前沿。但科學(xué)技術(shù)的發(fā)展依舊伴隨著許多待解決的問(wèn)題,在技術(shù)創(chuàng)新與實(shí)時(shí)出現(xiàn)的問(wèn)題中尋求可持續(xù)發(fā)展的平衡,使得計(jì)算機(jī)技術(shù)可以更好的服務(wù)人們的生活,是我們需要努力的目標(biāo)。
參考文獻(xiàn)
[1]張珍.云計(jì)算環(huán)境下的數(shù)據(jù)挖掘算法探究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(05):58-59.
[2]夏春梅.大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)在銀行中的應(yīng)用[J].電子技術(shù)與軟件工程,2019(10):174.
[3]胡水星.大數(shù)據(jù)及其關(guān)鍵技術(shù)的教育應(yīng)用實(shí)證分析[J].遠(yuǎn)程教育雜志,2015,33(05):46-53.
作者:赫然 黃今慧 單位:北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院