數(shù)字資源保存探討論文
時(shí)間:2022-03-15 03:56:00
導(dǎo)語(yǔ):數(shù)字資源保存探討論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1引言
隨著數(shù)字信息的激增、數(shù)字化環(huán)境的形成,廣大用戶日益依賴(lài)數(shù)字資源和網(wǎng)絡(luò)化服務(wù)。數(shù)字資源長(zhǎng)期保存日益受到重視,是一個(gè)新的復(fù)雜的問(wèn)題。我國(guó)在這方面尚處于起步階段,而在歐美、澳大利亞等國(guó)家,數(shù)字資源長(zhǎng)期戰(zhàn)略保存方面的研究和應(yīng)用已經(jīng)取得長(zhǎng)足進(jìn)展,一些國(guó)家已經(jīng)開(kāi)始應(yīng)用性部署,積累了大量的知識(shí)和經(jīng)驗(yàn)。2004年7月在北京召開(kāi)的“中歐數(shù)字資源長(zhǎng)期保存國(guó)際研討會(huì)”對(duì)于推動(dòng)我國(guó)數(shù)字資源長(zhǎng)期保存的研究和應(yīng)用,具有重要意義。
2數(shù)字資源長(zhǎng)期保存的關(guān)鍵問(wèn)題分析
2.1標(biāo)準(zhǔn)問(wèn)題
數(shù)字信息的長(zhǎng)期保存主要涉及到兩個(gè)方面,一是防止數(shù)字信息被非法變更與破壞,另一個(gè)是維護(hù)數(shù)字信息的長(zhǎng)期真實(shí)可讀。前者,IT界極為重視,國(guó)內(nèi)外已開(kāi)發(fā)了不少技術(shù)產(chǎn)品來(lái)防范非法變更與破壞數(shù)字信息,只要技術(shù)措施與管理手段科學(xué)地融合,就有可能在一定程度上解決問(wèn)題。然而,對(duì)于維護(hù)數(shù)字信息長(zhǎng)期有效讀出,全球范圍都在研究與努力,但至今仍在探索完美的解決方案。因?yàn)?,它涉及的?wèn)題太多,其中最重要的是標(biāo)準(zhǔn)問(wèn)題。標(biāo)準(zhǔn)是緩解技術(shù)更新與數(shù)字信息讀出矛盾的一劑良方,但在這方面存在一些問(wèn)題,一是某些標(biāo)準(zhǔn),特別是行業(yè)標(biāo)準(zhǔn)嚴(yán)重滯后;二是完全按照標(biāo)準(zhǔn)操作,目前還有難度。制定標(biāo)準(zhǔn)應(yīng)當(dāng)廣泛地征求相關(guān)技術(shù)人員與管理人員的意見(jiàn),但現(xiàn)在有些行業(yè)標(biāo)準(zhǔn)的制定,僅僅是少數(shù)人在撰寫(xiě),有些甚至是閉門(mén)造車(chē),使指導(dǎo)與規(guī)范大家行為的標(biāo)準(zhǔn)嚴(yán)重滯后于國(guó)際發(fā)展水平。三是現(xiàn)實(shí)工作中存在標(biāo)準(zhǔn)兼容與選擇的問(wèn)題,如甲軟件與乙軟件都是符合標(biāo)準(zhǔn)的,但甲與乙又各有特點(diǎn),這個(gè)特點(diǎn)就不在標(biāo)準(zhǔn)范圍之內(nèi)了,這為我們提出了一個(gè)棘手的問(wèn)題,我們應(yīng)當(dāng)以哪個(gè)軟件為主。如果以甲軟件為主,則乙軟件形成的非標(biāo)準(zhǔn)數(shù)據(jù),或另類(lèi)標(biāo)準(zhǔn)特色信息就要向甲軟件形成的平臺(tái)上遷移。因此,作為被保存的數(shù)字信息應(yīng)當(dāng)采用最穩(wěn)定的技術(shù)與通用的標(biāo)準(zhǔn)歸檔,與相關(guān)行業(yè)標(biāo)準(zhǔn)及國(guó)際標(biāo)準(zhǔn)相互兼容,這也是我們首先應(yīng)考慮解決的問(wèn)題。
在數(shù)字資源長(zhǎng)期保存中,標(biāo)準(zhǔn)化試圖以某一為公共接受的標(biāo)準(zhǔn)來(lái)進(jìn)行數(shù)字資源的存儲(chǔ)、描述、組織與檢索,其中OAIS參考模型是一項(xiàng)重要內(nèi)容。OAIS是由美國(guó)國(guó)家航空和航天局與美國(guó)太空數(shù)據(jù)系統(tǒng)委員會(huì)(CCSDS)聯(lián)合制定的標(biāo)準(zhǔn),規(guī)定了數(shù)字資源長(zhǎng)期保存的術(shù)語(yǔ)、概念和參考框架,確定了一個(gè)存檔系統(tǒng)的基本功能,提出了一個(gè)管理數(shù)字對(duì)象和信息包的信息模型。在一致性方面起了很重要的作用,并逐漸成了眾多存儲(chǔ)項(xiàng)目遵循的標(biāo)準(zhǔn),被廣泛的用于開(kāi)發(fā)保存工具和存儲(chǔ)系統(tǒng)。
2.2管理問(wèn)題
在數(shù)字資源長(zhǎng)期保存中,管理是從整體上進(jìn)行宏觀規(guī)劃、組織和控制,是數(shù)字資源長(zhǎng)期保存的基礎(chǔ)與保障。內(nèi)容主要包括:保存政策、責(zé)任體系及合作機(jī)制、知識(shí)產(chǎn)權(quán)等。保存政策是有效實(shí)施數(shù)字資源長(zhǎng)期保存的管理上的保證,內(nèi)容應(yīng)該涉及技術(shù)、組織、人文、法律、權(quán)益管理等方面,還應(yīng)該包括國(guó)際國(guó)內(nèi)合作、商業(yè)運(yùn)作、相關(guān)者培訓(xùn)、質(zhì)量管理和審計(jì)策略等內(nèi)容。對(duì)于保存目標(biāo),許多專(zhuān)家認(rèn)為基本的選擇標(biāo)準(zhǔn)是首先保存那些容易丟失的、與未來(lái)有關(guān)聯(lián)的、有重要價(jià)值的數(shù)字資源,保存重要的科學(xué)數(shù)據(jù),特別是“原始數(shù)據(jù)”。數(shù)字資源長(zhǎng)期保存不僅僅是圖書(shū)館、檔案館、博物館等文獻(xiàn)機(jī)構(gòu)的職責(zé),內(nèi)容創(chuàng)造者、出版商等也應(yīng)當(dāng)承擔(dān)相應(yīng)的責(zé)任。為了有效實(shí)施長(zhǎng)期保存,需要數(shù)字對(duì)象生產(chǎn)者(如科學(xué)家)、提供者(如圖書(shū)館)、傳播者(如出版商、網(wǎng)站)等之間相互合作,需要圖書(shū)館之間相互合作,需要國(guó)家、國(guó)際層面上的合作。另外,數(shù)字資源長(zhǎng)期保存中還面臨一些法律問(wèn)題,在制定數(shù)字資源長(zhǎng)期保存策略時(shí)不僅要考慮版權(quán)法,而且還要考慮相應(yīng)軟件版權(quán)保護(hù)問(wèn)題。目前數(shù)字資源所有者主要通過(guò)許可方式授權(quán)合法用戶使用數(shù)字資源。如果我們希望長(zhǎng)期保存這些數(shù)字資源,就應(yīng)當(dāng)在協(xié)議中增加“永久保存”條款。進(jìn)行數(shù)字資源的長(zhǎng)期保存,如果未獲得版權(quán)所有者的許可,也沒(méi)有法律“合理使用”、“法定許可”等條款的支持,就很容易觸犯知識(shí)產(chǎn)權(quán)法。如何能有效地解決這些問(wèn)題,還有待于進(jìn)一步研究。
一種值得推薦的管理模式是合作管理。其功能主要體現(xiàn)在:首先,有助于從長(zhǎng)期保存協(xié)作網(wǎng)整體上協(xié)調(diào)組織,形成數(shù)字資源長(zhǎng)期保存布局的合理性。具體來(lái)說(shuō),在學(xué)科內(nèi)容上,避免出現(xiàn)不必要的重復(fù)保存,避免因信息缺乏造成某些內(nèi)容方面的遺漏;在地理分布上,避免造成服務(wù)提供的死角;在經(jīng)濟(jì)和技術(shù)保障力度上,避免長(zhǎng)期保存責(zé)任者與數(shù)字資源對(duì)象組配的失誤等。其次,借鑒以往和他人的相關(guān)經(jīng)驗(yàn)和教訓(xùn),盡可能使自己在長(zhǎng)期保存決策制定和方案實(shí)施中避免某些失誤。第三,展示數(shù)字資源發(fā)展現(xiàn)狀與動(dòng)態(tài)、長(zhǎng)期保存發(fā)展現(xiàn)狀與動(dòng)態(tài),幫助管理協(xié)調(diào)者、具體責(zé)任者等進(jìn)行對(duì)策研究和制定等。合作管理的這些功能,主要是通過(guò)數(shù)字資源管理流程來(lái)實(shí)現(xiàn)。
2.3數(shù)字資源存儲(chǔ)介質(zhì)的選擇問(wèn)題
數(shù)字媒介的倍增性使信息時(shí)代的數(shù)據(jù)量成倍增長(zhǎng),而數(shù)字媒介的高創(chuàng)新性卻使信息技術(shù)日新月異,各種大容量的存儲(chǔ)介質(zhì)不斷涌現(xiàn)。這使得數(shù)字信息存儲(chǔ)的熱點(diǎn)將不再是技術(shù)本身,而是如何選擇存儲(chǔ)介質(zhì)高效地對(duì)存儲(chǔ)資源進(jìn)行管理。存儲(chǔ)媒體的好壞是影響數(shù)字信息長(zhǎng)期存取的一大因素。因此要保證數(shù)字信息的長(zhǎng)期存取,就必然涉及到存儲(chǔ)媒體的選擇問(wèn)題。
目前,我國(guó)僅有一個(gè)國(guó)家標(biāo)準(zhǔn)《電子文件歸檔與電子檔案管理規(guī)范》對(duì)長(zhǎng)期歸檔保存的文獻(xiàn)媒體選擇進(jìn)行了推薦,“本標(biāo)準(zhǔn)推薦采用的媒體,按優(yōu)先順序分別是;只讀式光盤(pán)、一次寫(xiě)入光盤(pán)、硬磁盤(pán)、可擦式光盤(pán)等。禁正使用軟盤(pán)作為歸檔電子文件長(zhǎng)期保存的媒體”。除這一標(biāo)準(zhǔn)外,國(guó)內(nèi)尚無(wú)其他有關(guān)數(shù)字存儲(chǔ)媒體選擇的推薦意見(jiàn)。然而,這一標(biāo)準(zhǔn)僅僅只是對(duì)長(zhǎng)期歸檔保存的數(shù)字對(duì)象的媒體選擇進(jìn)行了推薦,對(duì)廣大數(shù)字信息產(chǎn)生部門(mén)和文獻(xiàn)保存部門(mén)保存各類(lèi)數(shù)字信息資源的媒體選擇尚無(wú)參考意見(jiàn)。而且在現(xiàn)實(shí)工作中,存儲(chǔ)媒體種類(lèi)紛繁、標(biāo)準(zhǔn)不一的現(xiàn)象較為嚴(yán)重,存儲(chǔ)媒體的質(zhì)量也難以保證,這勢(shì)必影響到數(shù)字信息的保存與有效讀取。
選擇數(shù)字信息存儲(chǔ)媒體時(shí)需要考慮多種因素,如相關(guān)的國(guó)際、國(guó)家標(biāo)準(zhǔn)或推薦意見(jiàn)、數(shù)字信息的生命周期(產(chǎn)生、利用、歸檔、刪除或永久性歸檔保存)、存儲(chǔ)媒體的自身因素(媒體壽命、存儲(chǔ)容量、系統(tǒng)獨(dú)立性、成本)、部門(mén)的具體情況(如保存目的、效益、經(jīng)濟(jì)承受能力)。筆者認(rèn)為,媒體選擇標(biāo)準(zhǔn)不是絕對(duì)的,機(jī)構(gòu)在選擇存儲(chǔ)介質(zhì)時(shí),既要考慮到符合標(biāo)準(zhǔn)的數(shù)據(jù)保存要求,也要權(quán)衡自身的經(jīng)濟(jì)承受能力?;谝陨峡紤]因素,參照1999年澳大利亞維多利亞洲政府頒布的有關(guān)數(shù)字介質(zhì)選擇的指南,提出如下參考選擇方案:
(1)直接存儲(chǔ)器介質(zhì)直接存儲(chǔ)器介質(zhì)是數(shù)據(jù)產(chǎn)生后直接進(jìn)行記錄的介質(zhì)。這類(lèi)介質(zhì)極多,應(yīng)視數(shù)據(jù)重要程度的不同加以選用。對(duì)于重要業(yè)務(wù)數(shù)據(jù),5.25英寸的MO光盤(pán),記錄數(shù)據(jù)比較穩(wěn)定,更適于作為這類(lèi)重要數(shù)據(jù)的存儲(chǔ)介質(zhì)。目前,我國(guó)金融、保險(xiǎn)、電信與政府部門(mén)等廣泛使用MO光盤(pán)庫(kù)進(jìn)行重要數(shù)據(jù)的存儲(chǔ)。WORM光盤(pán)適于數(shù)據(jù)量不大的記錄的錄入,WORM磁帶適于數(shù)據(jù)量很大的記錄的寫(xiě)入。對(duì)于普通業(yè)務(wù)數(shù)據(jù),硬盤(pán)、MO盤(pán)都可以作為記錄介質(zhì)。
(2)備份介質(zhì)對(duì)于海量數(shù)據(jù)備份介質(zhì),磁帶存儲(chǔ)技術(shù)是一種安全、可靠、易使用和相對(duì)投資小的備份方式,其容量大,可以在相對(duì)比較短的時(shí)間內(nèi)備份大容量的數(shù)據(jù),并可十分簡(jiǎn)單地對(duì)原有系統(tǒng)進(jìn)行恢復(fù),因而磁帶是備份大容量數(shù)據(jù)的理想介質(zhì)。對(duì)于數(shù)據(jù)量較小的文件備份,自動(dòng)光盤(pán)機(jī)、自動(dòng)光盤(pán)庫(kù)以及硬盤(pán)等存儲(chǔ)設(shè)備都可用來(lái)備份數(shù)據(jù)量較小的、訪問(wèn)頻率較高的文件。與硬盤(pán)備份相比較,光盤(pán)能提供比較經(jīng)濟(jì)的存儲(chǔ)解決方案,并且容量相對(duì)較小。備份大容量數(shù)據(jù)時(shí),所需的光盤(pán)數(shù)量極大,將增加存儲(chǔ)費(fèi)用與管理難度?;顒?dòng)硬盤(pán)作為備份介質(zhì)使用的較多,它比光盤(pán)具有更多的有利于活躍數(shù)據(jù)的讀寫(xiě)的優(yōu)勢(shì),如讀取數(shù)據(jù)更快等。我國(guó)軍隊(duì)、金融等幾個(gè)較大的需要保密的行業(yè),對(duì)于重要的核心數(shù)據(jù)均使用可移動(dòng)硬盤(pán)備份。可移動(dòng)硬盤(pán)易丟失數(shù)據(jù)的弱點(diǎn)使它不能用作長(zhǎng)期存儲(chǔ)數(shù)據(jù)的介質(zhì),只適合于備份當(dāng)前重要數(shù)據(jù),并短期保存。對(duì)于檔案數(shù)據(jù)的備份,可考慮使用WORM磁帶或WORM光盤(pán)。對(duì)于部門(mén)數(shù)據(jù)的歸檔備份介質(zhì),MO光盤(pán)、CD-ROH光盤(pán)以及可擦寫(xiě)磁帶都可以考慮。(3)檔案數(shù)據(jù)存儲(chǔ)介質(zhì)WORM盤(pán)、WORM磁帶都可以考慮作為檔案數(shù)據(jù)存儲(chǔ)介質(zhì)。
(4)用于數(shù)據(jù)交換的臨時(shí)存儲(chǔ)介質(zhì)一般說(shuō)來(lái),軟盤(pán)具有廣泛的通用性和便于攜帶的特點(diǎn),可作為普通計(jì)算機(jī)用戶交換數(shù)據(jù)的介質(zhì),但其不穩(wěn)定性,不適于作為重要數(shù)據(jù)的交換介質(zhì)。相對(duì)而言,CD-ROM、活動(dòng)硬盤(pán)以及U盤(pán)等更合適。
2.4數(shù)字資源長(zhǎng)期保存的關(guān)鍵技術(shù)問(wèn)題
對(duì)于數(shù)字資源,必須采取積極的維護(hù)和保存措施,否則等到媒體開(kāi)始老化或技術(shù)已被淘汰再去恢復(fù)將為時(shí)已晚,造成的損失也是不可估量的。保證數(shù)字信息的長(zhǎng)期讀取涉及到很多方面,既有技術(shù)因素,也有非技術(shù)的,如政策、標(biāo)準(zhǔn)、資金、人員、管理等等。但最重要的還是要有一整套保存數(shù)字信息的關(guān)鍵技術(shù)。目前常用的保存數(shù)字信息的關(guān)鍵技術(shù)方法主要有:
(1)遷移(Migration)遷移是目前實(shí)際運(yùn)行中使用比較成熟和頻繁的方法。為保證當(dāng)前存儲(chǔ)的數(shù)字信息總能被當(dāng)前系統(tǒng)讀取,采用數(shù)據(jù)“遷移”的方法,持續(xù)地將數(shù)字信息從舊的軟硬件環(huán)境轉(zhuǎn)換到新的計(jì)算機(jī)環(huán)境,是一種隨著技術(shù)變化定期改變信息格式的處理過(guò)程。例如,把Wordstar文件轉(zhuǎn)移到WordPerfect格式,再依次遷移到Word3.0、word5.0、word97、word2000、word2003格式,這樣隨著軟件版本的新不斷地進(jìn)行遷移。遷移主要有兩種情況,一是把數(shù)字信息從種類(lèi)繁多的格式下遷移到當(dāng)前廣泛使用的幾個(gè)標(biāo)準(zhǔn)格式中。二是將數(shù)字信息從穩(wěn)定性低的媒體遷移到穩(wěn)定性更高的媒體上,從對(duì)軟硬件環(huán)境依賴(lài)強(qiáng)的格式遷移到對(duì)軟硬件環(huán)境依賴(lài)程度低的格式下。但在遷移中可能會(huì)破壞文件的原貌、格式、結(jié)構(gòu)、甚至是內(nèi)容,所以在遷移過(guò)程中要格外小心。
(2)仿真(Emulation)仿真與遷移都是為了解決數(shù)字信息的讀取問(wèn)題,但與遷移不同,它不是著眼于信息的格式,而是關(guān)注讀取信息的應(yīng)用軟件環(huán)境。所謂仿真就是制作一個(gè)仿真器,模仿數(shù)字信息產(chǎn)生時(shí)的軟硬件環(huán)境,使數(shù)字信息能夠以原始狀態(tài)重現(xiàn),而不管現(xiàn)在的技術(shù)環(huán)境如何。仿真法不僅能使在過(guò)時(shí)系統(tǒng)上形成的數(shù)字信息以原始面貌(初始格式、版面與內(nèi)容等)顯示出來(lái),其功能性也隨之得到保護(hù)。因而仿真引起了人們的重視,它有助于保護(hù)、辨認(rèn)那些極大依賴(lài)特殊硬件與軟件而又無(wú)法在新、舊技術(shù)平臺(tái)間進(jìn)行遷移的數(shù)字信息等(如超文本、多媒體等復(fù)雜文件)。仿真被視為理想的保存策略,但由于其技術(shù)的復(fù)雜性,仿真還處于研究和試驗(yàn)階段,沒(méi)有真正的可操作的系統(tǒng)能投入使用。
(3)數(shù)據(jù)再造(Resume,數(shù)據(jù)恢復(fù)或數(shù)據(jù)考古)是從原始的字節(jié)流中恢復(fù)數(shù)字資源的原貌,并保證數(shù)據(jù)資源的可讀性和可用性。數(shù)據(jù)恢復(fù)包括數(shù)據(jù)災(zāi)難恢復(fù)、數(shù)據(jù)格式恢復(fù)等。數(shù)據(jù)恢復(fù)是具有技術(shù)挑戰(zhàn)的技術(shù)方法,值得注意的是,如果已經(jīng)無(wú)法獲取數(shù)字資源的原貌,就無(wú)法評(píng)估數(shù)據(jù)恢復(fù)的成果。因此在正常的圖書(shū)館數(shù)字資源保存過(guò)程中,不贊成使用這種方法作為長(zhǎng)期保存的技術(shù)方法,而是采用更為實(shí)際的運(yùn)作方法。該方法僅在其長(zhǎng)期保存方法無(wú)法發(fā)揮作用時(shí)使用??傊?,確定某種方案是否適用,需要充分考慮它的可行性、可持續(xù)性、實(shí)用性和合理性。
2.5數(shù)字信息的安全問(wèn)題
數(shù)字信息日益增多,較易受到干擾和攻擊,給數(shù)字信息長(zhǎng)期保存帶來(lái)嚴(yán)峻的安全問(wèn)題。具體實(shí)施數(shù)字信息安全管理可從以下五個(gè)方面著手。
(1)采用社會(huì)法律、法規(guī)手段,建立安全管理標(biāo)準(zhǔn)和規(guī)則。(2)加強(qiáng)用戶認(rèn)證。用戶認(rèn)證在數(shù)字信息的安全中屬于技術(shù)措施的第一道大門(mén),主要目的是提供訪問(wèn)控制和不可抵賴(lài)的作用。用戶認(rèn)證方法按其層次不同可以根據(jù)用戶持有的證件、用戶密碼、用戶特有的生物特征三種因素提供認(rèn)證。(3)授權(quán),這主要為特許用戶提供合適的訪問(wèn)權(quán)限,并監(jiān)控用戶的活動(dòng),使其不越權(quán)使用。(4)加密,加密是信息安全應(yīng)用中最早開(kāi)展的有效手段之一,數(shù)據(jù)通過(guò)加密可以保證在存取與傳送的過(guò)程中不被非法查看、篡改、竊取等。(5)審計(jì)、監(jiān)控和數(shù)據(jù)備份。保證數(shù)字信息的安全,重要的是國(guó)家或部門(mén)應(yīng)當(dāng)制定一個(gè)備份機(jī)制與規(guī)范,對(duì)記錄的備份規(guī)范時(shí)間要求、格式要求與份數(shù)要求予以規(guī)范,并給予財(cái)力的支持。備份規(guī)范也要考慮不同的工作環(huán)境,例如信息中心就應(yīng)當(dāng)要求進(jìn)行時(shí)時(shí)備份,以防當(dāng)前數(shù)據(jù)的丟失。對(duì)于數(shù)字記錄保存部門(mén),應(yīng)當(dāng)規(guī)定定期備份。
3結(jié)語(yǔ)
數(shù)字媒介的高滲透性、高倍增性、高創(chuàng)新性與高帶動(dòng)性具有無(wú)比的能量,是促進(jìn)信息資源管理與時(shí)俱進(jìn)的激活劑。它不斷地向信息資源管理領(lǐng)域提出新問(wèn)題,刻不容緩地迫使我們思考與變革。數(shù)字資源長(zhǎng)期保存就是其中的一個(gè)非常重要的問(wèn)題。我們對(duì)其關(guān)鍵問(wèn)題進(jìn)行思考,目的在于了解數(shù)字資源長(zhǎng)期保存的理論知識(shí)、技術(shù)知識(shí)以及實(shí)踐經(jīng)驗(yàn),掌握國(guó)際上大量有價(jià)值的信息及信息源,促進(jìn)我國(guó)相關(guān)領(lǐng)域數(shù)字資源長(zhǎng)期保存意識(shí)的提高及數(shù)字資源長(zhǎng)期保存工作的開(kāi)展。