文獻(xiàn)資源存儲(chǔ)數(shù)據(jù)挖掘論文

時(shí)間:2022-05-23 02:52:57

導(dǎo)語(yǔ):文獻(xiàn)資源存儲(chǔ)數(shù)據(jù)挖掘論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

文獻(xiàn)資源存儲(chǔ)數(shù)據(jù)挖掘論文

1云計(jì)算技術(shù)

云計(jì)算與云存儲(chǔ)的出現(xiàn),為圖書館文獻(xiàn)資源信息服務(wù)的建設(shè)注入了新的活力。利用云計(jì)算服務(wù)可以為圖書館提供存儲(chǔ)、平臺(tái)和計(jì)算功能,而圖書館也可以利用云服務(wù)來(lái)處理業(yè)務(wù),大大降低圖書館信息技術(shù)的資金成本和人力資源。圖書館通過(guò)對(duì)各類信息資源、格式采用一個(gè)統(tǒng)一的管理平臺(tái),實(shí)現(xiàn)更大的網(wǎng)絡(luò)信息效益,同時(shí)也可以共享應(yīng)用和數(shù)據(jù)。

2文獻(xiàn)資源存儲(chǔ)

2.1存儲(chǔ)現(xiàn)狀

從存儲(chǔ)系統(tǒng)的模式來(lái)看,當(dāng)前存儲(chǔ)技術(shù)有以下3種:直接連接存儲(chǔ)DAS(DirectAttachedStor-age)、網(wǎng)絡(luò)接入存儲(chǔ)NAS(NetworkAttachedStor-age)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN(StorageAreaNet-work)[1]。DAS是最早的服務(wù)器與磁盤直聯(lián)的存儲(chǔ)方式。由于存儲(chǔ)量小,該模式已經(jīng)不再適合圖書館大容量數(shù)據(jù)資源的存儲(chǔ)要求。NAS采用網(wǎng)絡(luò)TCP/IP技術(shù),優(yōu)點(diǎn)是可以支持多計(jì)算機(jī)平臺(tái),適合訪問(wèn)量不大的數(shù)據(jù)庫(kù)和事務(wù)處理。

2.2存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN

SAN是采用光纖通道交換機(jī)和光纖線纜把存儲(chǔ)設(shè)備和服務(wù)器機(jī)群連接。提供速率高達(dá)4Gbps的數(shù)據(jù)傳輸,是真正的高速共享存儲(chǔ)。它不占用外網(wǎng)的資源,具有自己獨(dú)立的存儲(chǔ)區(qū)域,光纖接口提供連接長(zhǎng)度達(dá)10km。其獨(dú)立的存儲(chǔ)管理系統(tǒng)對(duì)存儲(chǔ)設(shè)備進(jìn)行集中管理和監(jiān)測(cè)。與傳統(tǒng)的直連存儲(chǔ)方式相比,SAN更關(guān)注磁盤、磁帶等存儲(chǔ)設(shè)備的可靠結(jié)構(gòu)。成為最具發(fā)展?jié)摿Φ拇鎯?chǔ)模式,在大型數(shù)據(jù)庫(kù)資源存儲(chǔ)中是主流技術(shù)。在云存儲(chǔ)的技術(shù)支持下,我們可以利用光纖通道SAN陣列來(lái)存儲(chǔ)數(shù)據(jù)量成倍增加的信息資源數(shù)據(jù)。把SAN陣列劃分成若干邏輯區(qū)域,每個(gè)區(qū)域存放一個(gè)服務(wù)器上的數(shù)據(jù)。通過(guò)存儲(chǔ)區(qū)域網(wǎng)絡(luò)服務(wù)組之間的共享存儲(chǔ)陣列,可以實(shí)現(xiàn)存儲(chǔ)資源的聚合,采用集中存儲(chǔ)架構(gòu),服務(wù)器將接入這個(gè)存儲(chǔ)網(wǎng)絡(luò),并由存儲(chǔ)平臺(tái)統(tǒng)一提供空間并保證存儲(chǔ)系統(tǒng)的可靠性和可用性。

2.3陣列存儲(chǔ)形式

在存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN的數(shù)據(jù)存儲(chǔ)模式下,文獻(xiàn)信息資源是以磁盤陣列的方式存儲(chǔ)的。磁盤陣列是數(shù)據(jù)存儲(chǔ)的重要設(shè)備,其穩(wěn)定性和可靠性是非常重要的。考慮到圖書館文獻(xiàn)資源存儲(chǔ)量日益增大,磁盤以RAID5的陣列存儲(chǔ)形式構(gòu)成。在RAID5中,數(shù)據(jù)以塊為單位分布到各個(gè)硬盤上。RAID5本身不對(duì)數(shù)據(jù)進(jìn)行備份,而是把數(shù)據(jù)和與其相對(duì)應(yīng)的奇偶校驗(yàn)信息存儲(chǔ)到組成RAID5的各個(gè)陣列磁盤上,而且數(shù)據(jù)和奇偶校驗(yàn)信息分別存儲(chǔ)于不同的磁盤上。當(dāng)RAID5的一個(gè)磁盤數(shù)據(jù)損壞后,利用剩下的數(shù)據(jù)和相應(yīng)的奇偶校驗(yàn)信息可以恢復(fù)被損壞的數(shù)據(jù)[3]。RAID5是目前冗余能力和存儲(chǔ)安全性能非常好的方式。根據(jù)RAID5的特性,陣列中其中一塊磁盤是作為熱備盤使用的,正常狀態(tài)下該盤不存儲(chǔ)數(shù)據(jù)。

3數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)的安全存儲(chǔ)和有效利用是現(xiàn)代化圖書館文獻(xiàn)資源建設(shè)的2個(gè)重要方面。在數(shù)據(jù)得以安全存儲(chǔ)的前提下,如何利用好這些海量的數(shù)據(jù)信息,發(fā)現(xiàn)其中規(guī)律,用于指導(dǎo)現(xiàn)在或是未來(lái)的工作,就需要一門新的技術(shù)來(lái)研究它們的規(guī)律。數(shù)據(jù)挖掘技術(shù)就在這個(gè)背景下應(yīng)運(yùn)而生,并且得到了迅速的發(fā)展。數(shù)據(jù)挖掘簡(jiǎn)稱KDD知識(shí)發(fā)現(xiàn),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)。它是從龐大的不完整、模糊的隨機(jī)數(shù)據(jù)中提取潛在的和有價(jià)值的信息。例如:通過(guò)對(duì)讀者以往書籍的借閱情況進(jìn)行挖掘分析、對(duì)比,可以發(fā)現(xiàn)他們的學(xué)習(xí)情況、興趣愛(ài)好等規(guī)律,還可以通過(guò)分析,評(píng)估圖書館工作的成效,給圖書館的服務(wù)提供科學(xué)指導(dǎo)。其次,可以將關(guān)聯(lián)規(guī)則算法應(yīng)用到圖書流通數(shù)據(jù)的分析,挖掘讀者借閱行為中的潛在規(guī)則,以指導(dǎo)圖書館的讀者服務(wù)工作。應(yīng)用關(guān)聯(lián)規(guī)則算法,發(fā)現(xiàn)借閱流通日志中圖書之間的關(guān)聯(lián),從而指導(dǎo)讀者的借閱行為和提供個(gè)性化服務(wù)。通過(guò)實(shí)驗(yàn)分析獲得的相關(guān)規(guī)律和結(jié)論,為圖書館數(shù)字資源的采購(gòu)、引進(jìn)以及個(gè)性化服務(wù)推薦提供有力的數(shù)據(jù)依據(jù)和決策管理支持。

4結(jié)束語(yǔ)

在圖書館文獻(xiàn)資源建設(shè)中,數(shù)據(jù)的安全存儲(chǔ)和高效的利用是2個(gè)重要的環(huán)節(jié)。現(xiàn)代化圖書館中,電子文獻(xiàn)資源數(shù)量與日俱增,數(shù)據(jù)的安全存儲(chǔ)則十分重要。采用存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN的存儲(chǔ)系統(tǒng)具有很高的可靠性和可用性,為數(shù)據(jù)的存儲(chǔ)提供了安全的保障。同時(shí)利用數(shù)據(jù)挖掘技術(shù)可以顯著提高文獻(xiàn)資源的利用率,給圖書館的發(fā)展帶來(lái)了新的活力。

作者:貝蓓張凱單位:河北農(nóng)業(yè)大學(xué)