OFD版式標準在電子檔案管理的應用

時間:2022-11-10 09:26:07

導語:OFD版式標準在電子檔案管理的應用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

OFD版式標準在電子檔案管理的應用

摘要:文章分析ofd格式的技術特點,結合電子檔案管理中的應用需求,提出OFD在電子檔案移交接收中的技術實現思路,并分析實際應用情況。

關鍵詞:OFD;版式文檔;電子檔案;管理;應用

OFD作為版式文檔國家標準,在電子檔案管理領域有著重要的應用價值。電子檔案移交接收,是檔案館確保長期保存的電子檔案來源可靠、程序規范、要素合規的重要工作環節。天津市檔案館從電子檔案移交接收工作入手,探索OFD在電子檔案管理中的應用實踐,取得了階段性的成果。

1電子檔案版式格式要求與OFD的技術特點

1.1電子檔案的版式格式要求

版式文檔是版面呈現效果固定的電子文檔格式。其具有電子文檔呈現與設備無關,在各種設備上閱讀、打印和印刷時,其版面的呈現結果都一致的格式特征。這一格式特征,非常適宜電子文件的交換、、存檔。2009年《電子文件管理暫行辦法》提出“應采用符合國家標準的文件存儲格式,確保能夠長期有效可讀”;同年國家檔案局頒布《版式電子文件長期保存格式需求》,將版式文件作為電子檔案長期保存和利用的格式,并提出明確的技術需求;2016年10月國家標準化管理委員會國家標準《電子文件存儲與交換格式版式文檔》(GB/T33190—2016)。至此,我們有了自己的版式文檔格式國家標準,這對于促進相關產業的發展、提升我國電子文件管理的安全性和自主性,具有重要意義。

1.2OFD格式的技術特點

OFD版式文檔格式采用“容器+文檔”的方式描述和存儲數據。容器是一個虛擬存儲系統,所有數據都存放其中,包括文檔、頁面、大綱等文檔模型和圖形、圖像、字體等,容器提供訪問接口和數據壓縮方法,文檔模型采用XML,附加的字體、圖像、音頻、視頻等數字資源采用二進制格式,使用ZIP壓縮算法進行整體壓縮打包。OFD定義了基于XML和ZIP壓縮的通用版式文檔格式,適用于固定版式電子文件的存儲與交換,在滿足版式文檔核心需求的同時,技術實現更加精簡,擴展性和可控性更強,體現出以下幾個方面的優勢。第一,自主產權,安全可控。OFD具有完全自主知識產權,具備自主的核心技術,支持國產加密算法,國家對OFD標準具有完全自主的話語權,可以自主修訂和擴展OFD標準。第二,長期可讀,長久保存。OFD使用通用開放壓縮標準,其內容和配置信息以XML保存,相比PDF、DOC等二進制存儲格式更容易讀取和理解,有助于文件的長期可讀可用。第三,擴展性強,利于推廣。OFD的技術框架具有很強的可擴展性,可以根據需要擴充所包含的資源,支持公文語義等特色的行業應用,有利于在各行業應用和推廣。

1.3OFD在電子檔案管理中相關技術的應用

OFD的技術特點使其在電子檔案管理領域有著巨大的應用價值。作為國家標準版式文檔格式,OFD對于電子檔案管理尤為重要:提供了國內各行業各領域電子文件歸檔保存所需的統一的版式文檔格式標準;OFD不依賴于特定廠商或技術平臺,標準公開,有助于電子檔案長期可讀可用;OFD作為自主標準,支持國產加密算法,有助于實現自主可控;OFD的多文檔、高壓縮等特性為電子檔案的存儲和利用提供了技術支撐。OFD可以在電子檔案管理中發揮如下作用。一是支持電子檔案元數據采集和存儲。OFD具有很強的元數據描述能力,可以在文件管理各個階段利用OFD的CustomDatas或Extentions來自定義擴展文檔元數據,在檔案管理階段可繼承前面各階段采集的元數據,并根據檔案管理的需要對元數據進行擴展和補充。二是支持電子檔案信息包封裝和數據交換。在電子檔案的數據交換中,為維護其完整性一般會采用信息包的方式。OFD作為電子文件存儲和交換格式,采用ZIP壓縮打包,支持以數字簽名的方式對文檔內容進行真實性校驗,可有效支持電子檔案信息包的封裝和數據交換。三是支持電子檔案的長期保存。OFD對于檔案行業標準《版式電子文件長期保存格式需求》中的長期保存格式需求,如格式開放、不綁定軟硬件、文件自包含、格式自描述、顯示一致性、持續可解釋、穩健、利于存儲、支持技術認證機制、易于利用等要求具有較高的遵從性,是電子檔案長期保存格式的較好選擇。四是支持電子檔案的利用。OFD采用的壓縮打包技術,比同內容的DOC、PDF等格式文件體積更小,在線閱讀時加載速度更快,支持客戶端不留存副本等安全要求,可以靈活滿足電子檔案利用中的要求。

2OFD應用的相關技術路線

新修訂檔案法明確要求“電子檔案應當來源可靠、程序規范、要素合規”。檔案館接收電子檔案進館,是電子檔案管理中的一個重要環節。在接收環節,“程序規范”是確保接收進館電子檔案“來源可靠”和“要素合規”的關鍵。電子檔案是否以及如何遵守規范的程序要求,可以通過詳細的背景元數據和過程元數據來記錄和審計。本著這一思路,檔案館工作人員和系統技術開發人員共同研究分析,基于OFD的技術特點形成相應解決方案。

2.1基于OFD實現信息封裝

電子檔案移交接收關系到檔案管理權責的轉移,為確保電子檔案在移交接收中的完整性和安全性,通常會對電子檔案的數據進行打包封裝。OFD是一種采用ZIP壓縮的容器型的文件格式,具有數據打包封裝的能力。如果將OFD作為檔案信息的封裝格式,則可以充分利用OFD的數據打包封裝能力,使電子檔案的元數據和數字對象更緊密地結合,提升電子檔案在移交接收或長期保存中的完整性和安全性;同時,也會存在OFD封裝的檔案信息包相對復雜,其訪問和處理性能尚缺乏驗證等問題。因此,可以針對不同的應用需求,嘗試設計基于OFD的多種封裝結構。第一種是電子檔案OFD封裝結構,以OFD來封裝單個電子檔案的元數據和數字對象,在“件”一級將電子檔案的元數據和多個數字對象合并成一個電子檔案OFD文件。第二種是接收過程記錄表單的OFD結構,除了記錄表單本身的內容外,還基于OFD的信息封裝能力將接收的說明信息和校驗信息作為附件嵌入OFD文件中。利用這兩種OFD封裝結構,確保電子檔案在移交接收中的完整性和安全性。

2.2結合OFD實現電子檔案真實性保障

依據《黨政機關電子公文處理工作辦法》《黨政機關電子公文歸檔規范》等法規政策及標準規范的要求,電子公文在歸檔時“應當去除電子印章的數字簽名信息,只保留印章圖形”。這樣,歸檔保存的電子公文中原有的基于電子印章的真實性驗證技術機制將被去除,需要引入其他適合長期保存的真實性驗證技術機制。檔案館在電子檔案移交接收工作中,結合OFD對上述需求進行了技術實踐驗證。一方面,遵照法規政策和標準規范的要求,去除了電子檔案的數字對象中的電子印章校驗,使電子印章圖像化。另一方面,系統對原始移交包中每份電子檔案的內容文件等數字對象文件和XML格式的電子檔案元數據文件生成校驗碼,并將校驗碼集中保存到校驗文件中,將校驗文件作為附件保存在移交接收記錄表單的OFD文件中,并進一步封裝進入最終形成的移交信息包,移交接收雙方共同保存移交信息包,這樣就為雙方提供了移交接收過程的電子檔案真實性保障機制。

2.3移交接收過程電子檔案管理元數據的捕獲和保存

電子檔案移交接收過程中產生的元數據信息是電子檔案元數據的重要組成部分,有必要予以捕獲和進行記錄。但是,如果直接將這些元數據保存到原始移交包的電子檔案元數據XML文件中,則會因為XML文件的內容變動而導致該文件的校驗信息失效,使電子檔案的真實性產生瑕疵。可以有效利用OFD的封裝能力,將移交接收過程產生的元數據保存在OFD格式的移交接收過程記錄表單中,并進一步將該記錄表單保存到移交信息包中。利用OFD的封裝能力,將移交接收環節產生的元數據完整記錄下來。這樣可以在捕獲和保存移交接收過程產生的元數據的同時,不會破壞原始移交包中原有電子檔案元數據XML文件校驗信息的有效性,從而移交單位提交的電子檔案真實性校驗也得以保留。

2.4結合OFD實現文本識別和全文檢索

檔案館在電子檔案移交接收實際工作中,除了從移交單位接收原生的電子文件之外,也會接收到傳統載體紙質檔案的數字化復制件。紙質檔案的數字化復制件通常采用JPG、TIF等光柵圖像格式,也有部分采用由圖像直接生成的單層PDF文件格式。在這些文件格式之中,圖像上的文字內容無法直接讀取和檢索。可以結合采用的專業級OFDConvertor轉換引擎,在OFD轉換功能中集成OCR文字識別功能,對圖像進行OCR識別,將圖像中的文字內容識別出來,然后將識別出的文字內容嵌入OFD文件中,形成識別文字+掃描圖像的雙層內容,再加上檔案元數據所形成的元數據層內容,就形成了檔案的三層OFD文件格式。采用三層OFD文件格式的檔案,可以實現檔案元數據和檔案數字對象的緊密結合而有助于檔案的完整保存,可以精確、直觀地展示檔案的視覺內容,有助于檔案的可讀可用,還可以結合全文檢索引擎進一步實現對檔案內容文字和檔案元數據項的全文檢索,有助于充分挖掘檔案的信息利用價值。

3OFD在電子檔案移交接收環節的實現

天津市檔案館主要通過移交數據包交換方式進行電子檔案移交接收,先后制定了一系列相關標準規范,包括《天津市文書類電子文件元數據規范》《天津市文書類電子文件數據存儲結構規范》《文書檔案目錄數據庫結構與數據交換格式》等,對電子檔案移交接收中的信息組織方式、存儲結構及其基于XML數據體描述的規則和方法等進行了規定。針對OFD國家標準的應用,我們在國家相關標準規范的基礎上,對移交接收流程進行了優化設計,充分利用OFD文檔自身功能,實現OFD版式格式在電子檔案移交接收流程中的應用。

3.1確定了原始移交信息包的組織單元、存儲結構和內容組成

為簡化整個移交接收流程,規定了原始移交包以年度為單位,以文件夾形式存儲。原始移交包中要求包含目錄文件的文檔結構描述文件(schema-list.xsd),用于對原始移交包的目錄文件(List.xml)進行校驗,確保包中的檔案目錄數據合規;接收系統在原始移交包信息的基礎上自動生成包說明文件(說明文件.txt),并對原始移交包中檔案文件夾下的所有數字對象逐個生成校驗信息,形成校驗碼文件(校驗碼.txt),存放到原始移交包內;由接收系統自動形成《電子檔案移交接收登記表》。

3.2生成結構內容豐富的OFD文檔

《電子檔案移交接收登記表》轉換成OFD版式文檔的同時,將移交接收過程相關描述信息(主要是《電子檔案移交接收登記表》中的信息)、“四性檢測”結果信息,分別轉換成XML文檔,存儲到“電子檔案移交接收登記表.OFD”文檔中。該文檔可以達到不依賴特定系統對該批次電子檔案移交接收過程進行自描述的效果。再由電子檔案接收管理系統提供的OFD格式批量轉換功能,對每份檔案對應的文件夾目錄下的所有數字對象,包括檔案的辦文單、修改稿、定稿、正文等,全部轉換合并成一個OFD文件。同時將這份檔案元數據的“文件元數據.XML”也封裝到同一OFD文檔中,并采用檔號對此OFD文件命名,形成“檔號.OFD”文件。這些數字對象,在“檔號.OFD”文件里不再是獨立的組成部分,而是成了OFD文件內Pages元素下的各個頁面。在后續的電子檔案移交接收工作實踐中,上述OFD封裝結構性能穩定,取得了預期的效果。

3.3形成移交接收雙方認可的移交信息包

完成上述OFD格式轉換、封裝后,系統將“檔號.OFD文件”、原始移交包的目錄文件、說明文件、“其他”文件夾下的校驗文件等打包,生成轉換移交包。檔案館把原始移交包、轉換移交包和包含移交過程信息的“電子檔案移交接收登記表.OFD”打包,形成移交單位和檔案館雙方認可的、包含移交數據和移交過程記錄的完整移交信息包(SIP包)。SIP包返還給移交單位并要求保存5年以上。

4OFD后續研究及應用展望

當前,適用于長期保存的OFD/A標準正在制定之中,對于OFD在電子檔案管理中的應用仍有許多地方需要進一步研究和探討。下一步,我們和相關技術開發公司將密切關注OFD/A格式國家標準的制定和,結合OFD/A格式的特性,進一步探索OFD在電子檔案管理中更多的應用場景和更深入的應用方式。如,基于OFD/A格式的部分簽名和多版本元數據特性,實現電子檔案移交接收、長期保存等管理過程元數據的多次寫入,同時不影響前面階段的數據真實性的驗證。又如,基于OFD/A格式的自包含、自描述和校驗能力,通過獨立的OFD文件實現電子檔案不依賴于特定應用系統的長期保存,滿足電子檔案的真實性、完整性、可用性和安全性要求。

參考文獻:

[1]劉越男.新檔案法中電子檔案的法定要求[N].中國檔案報,2020-08-06(1).

[2]高林,李海波,叢培勇,王寒冰.OFD版式文檔國家標準解讀[J].信息技術與標準化,2016(10):42-44.

作者:仇偉海 王靚 袁嘉新 單位:天津市檔案館 上海信聯信息發展股份有限公司