關于制定中文元數據標準的思考

時間:2022-03-13 11:14:00

導語:關于制定中文元數據標準的思考一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

關于制定中文元數據標準的思考

【內容提要】作者認為,中文元數據標準應以DC為基本框架,并完全遵循和保留DC的結構、特點及擴展方式等,堅決防止CNMARC化傾向;中文元數據標準應形成一個完整的體系,對所涉及的相關的中文標準、規則、方案等,按照通用性、易用性等原則進行修改和制定;這一標準體系應成為全球各類中文信息資源著錄和檢索的標準。

【摘要題】信息資源建設與管理

元數據是“關于數據的數據”或“關于數據的結構化數據”,現在常說的元數據,是特指在標記語言(SGML、HTML、XML)環境下,對網絡信息資源進行描述的解決方案,主要是用于網絡信息資源的發現、存儲、管理和檢索利用。在當前網絡信息呈異常迅猛發展之勢,大量的多樣性的數字化資源,使得信息的利用和查找十分困難。為了解決這一問題,在國外已有了很多的元數據研究項目和成果,建立和運行了一些描述網絡信息資源的元數據模式。元數據的應用,為網絡信息資源的有序組織、適度控制和高效檢索利用,提供了便利的條件。近年來,中文網絡信息資源也在迅速增長,盡快研究和制定中文核心元數據標準,已是非常迫切的了。在制定中文元數據標準時,既要考慮到中文元數據處理的特殊性和中文資源的應用特點,更要從全球的信息大環境出發,分析、研究和借鑒國際上先進的、通用的元數據標準,在盡量保持與國際標準接軌的基礎上,制定符合中文資源應用需要的擴展與應用規范。

1中文元數據標準應以DC為基本框架

在國際上眾多的元數據方案中,DublinCoreElementSet(都柏林核心元素集,簡稱DC),以其結構簡單、語意互通和可擴展等特性,事實上已成為國際范圍內通用的網絡信息資源描述的元數據標準。DC經過幾次國際會議的研討和修訂,已逐步完善和成熟。所以,制定中文元數據標準應以DC元數據為基本框架。國內在四五年前就已開始了對DC的探討和研究,但至今尚未完全形成依托中文環境的DC元數據標準。當前應進一步加緊深入地對其進行研究和規范,形成中文元數據的一個標準核心集,以適應中文網絡信息資源的發展。中文元數據標準應完全按照DC元數據集來建立,在具體作法上要注意以下一些問題。

(1)完全按照DC元數據的框架結構來制定中文元數據標準。由于網絡信息資源在時空上的廣泛性和開放性,與傳統的文獻著錄的相對封閉性有著很大的不同,因此,中文元數據標準的制定,應強調與國際接軌,保持完整的一致性。也就是說要完全遵循DC元數據的框架結構來構建中文元數據標準,而不應該提出“以DC為主,參考其它元數據標準”來搞中文元數據標準。我們應汲取CNMARC的教訓,避免把中文元數據標準搞成“CNDC”。中文元數據標準應該只是對DC元數據進行本地化和中文化的處理,對它的內涵、外延等用中文予以標準地詮釋,方便使用中文的著錄者和檢索者理解與利用,僅對于著錄和檢索中文信息資源的一些特殊性和應用特點等有限的方面進行規范的規定和定義。

(2)中文元數據標準的制定,應完全保留DC元數據的基本特點。一般地講,內在性、可擴展性、獨立句法結構、可選擇性、可重復性和可修飾性是DC的6大特點,在實踐中集中地表現為DC元數據的簡易性、通用性、兼容性以及靈活的可擴展性,這些特性是DC能夠成為一個國際上通行的元數據標準的原因,也是建議中文元數據標準應完全按DC來制定的理由。因此,在制定中文元數據標準時,要完全保留DC的基本特點,不應有任何的更改。在國內有些使用DC元數據時,將某些元素規定為“不可重復”或“必備”等等,這種做法是不可取的。

(3)應以國際通行的DC修飾限定詞作為中文元數據的規范和擴展的依據,而不應采用其它形式。DC修飾詞提供了對元數據的擴展描述,可以縮小元素的含義范圍,使其更具有專指性,或是對元素進行規范性說明。目前,DC已正式確定了三類修飾:模式體系、語言種類和類型。如為了表達不同的日期,在使用“Data(日期)”這一元素時,可以增添“Created(創建)”、“Valid(有效)”、“Issued(發行)”、“Modified(修改)”等修飾詞。在中文元數據標準中,不應把這些元素的修飾詞解釋為子元素。元素與加了修飾詞的元素沒有主次之分,修飾詞并不改變元素本身的定義。元數據標準中,不應出現子元素的提法。元素的修飾限定和規范,是元數據元素的內在特性,是元素的不同表現形式,絕不能把元素和加了修飾詞的元素看作是元素與子元素的關系,應堅決防止中文元數據標準的MARC化傾向(在MARC中就有的字段、子字段之分)。元素與加了修飾詞的元素或多個附加了修飾詞的元素同時出現,是元數據的元素可重復性的體現。

2中文元數據標準應形成一個完整的體系

中文元數據標準是整個網絡上中文信息資源及中文電子出版物等的著錄和檢索的工具,其應用范圍是很廣泛的。因此,制定中文元數據標準的同時,還應對所涉及的相關的標準、規則和條例等進行研究、修改和制定,并逐步完善其推廣應用機制,使中文元數據標準逐步形成一個完整的體系,更好地服務于日益發展的中文網絡信息資源的開發和應用。與中文元數據標準相配套使用的一系列標準、規則和條例等的制定、修訂,要本著易用性、通用性、國際性和規范化、標準化、自動化的原則進行。這方面的工作主要的有以下一些:

(1)修訂和完善各類中文信息的代碼體系,并盡量與國際通用的代碼一致起來。制定有關中文的“資源類型表”、“格式類型表”、“關聯值列表”等,以規范中文信息資源的著錄和檢索利用。

(2)制定有關中文關鍵詞選詞截詞等規則,以適應中文信息資源的自動化著錄和檢索。制定中文網頁及電子出版物、數據庫等的制作規范和條例。

(3)編制一個簡單易用,能夠適應數字化信息著錄和檢索的“中文信息資源樹形分類表”。目前圖書館界廣泛應用的《中圖法》,其分類體系和類目設置均無法適應網絡時代信息分類的要求。

(4)建立一個像OCLC的CORC項目那樣的中文元數據在線編目系統,免費提供中文網頁或電子出版物的元數據自動生成。還應建立CNMARC與中文元數據的映射表,提供CNMARC數據向中文元數據格式的轉換等服務。

(5)仿照印刷文獻的在版編目(CIP)規定,制定中文網頁和電子出版物的在版元數據著錄規定,以行政手段強制要求所有正式注冊的中文網頁及電子出版物等,必須具備元數據著錄項目,實現中文網絡信息資源的作者著錄,使中文元數據能夠較快地在大范圍內推廣,方便中文資源的高效利用。

3中文元數據標準應是全球各類中文信息資源著錄和檢索的標準

網絡信息資源發展迅速、包羅萬象,且具有廣泛性、開放性和分布式的特征,任何一種元數據都難以滿足所有的需要。因此,元數據的標準框架應是一種可擴展的核心集,以應付各種需要。DC就是這樣一種元數據集,以DC為基本框架構建的中文元數據標準也應是一種可擴展的核心元數據集。中文元數據標準除了要完整地保持國際通用的擴展外,

還應制定一些適應中文資源應用所需的擴展,并對這類特殊的擴展進行規范和控制。所有的元素或擴展的元素修飾限定詞的著錄標識,仍以DC規定的規范的英文名稱來標識,不應用中文來標識。

中文核心元數據是各類中文數字化信息的描述、管理、保存和利用的標準,它必須是能夠應用于各種領域的數字化資源,如數字圖書館、電子政府、網絡商務、各類數據庫、電子出版物等等方面,也應是用于整個Internet網絡中文信息的統一標準,能夠實現異構資源間的互操作,在更廣的范圍內實現中文信息資源的共建共享。因此,中文元數據標準的研究制定,絕不能僅僅局限在圖書館界人員,而應在更大的范圍內,采取開放式的研討方式。我們都知道,DC元數據是由圖書館、計算機、網絡等方面的專家和學者共同研討的產物,我們也應借鑒這一經驗,而且參與者的學科范圍和專業領域要更擴大一些,這樣制定出的中文元數據標準,才能廣泛地應用于各學科領域,成為中文信息資源描述的基礎的跨領域的元數據集。

中文元數據標準應是全球所有中文資源著錄和檢索的標準,應得到海內外從事中文信息資源建設的專家學者的廣泛支持和參與,采取聯合、協作、共建共享的方式,加強合作,避免重復開發。使制定出的中文元數據標準具有更為廣泛的適用性和權威性,并形成一個國際通用的中文元數據標準體系,推動全世界的中文數字化信息資源的建設和發展。

【參考文獻】

1王新.都柏林核心集綜述.情報理論與實踐,2000,(5)

2趙慧勤.網絡信息資源組織——DublinCore元數據.情報科學,2001,(4)

3任瑞娟,吳軍霞.DC與圖書館Web信息.現代圖書情報技術,2001,(5)

4吳開華,邢春曉,羅德胤.數字圖書館元數據研究.中國圖書館學報,2002,(3)

5劉源,吳利薇.元數據及其格式研究.圖書館論壇,2002,(3)

6王松林.元數據及有關思考.情報學報,2002,(4)

7梅海燕.元數據的研究進展.現代圖書情報技術,2002,(4)

8高建勛,吳開華.元數據發展中的熱點問題討論.圖書館,2002,(5)

9黃星亮.都柏林核心元數據及其在我國數字圖書館建設中的應用.圖書館學研究,2002,(7)

10賀宜.中文元數據開發與應用的分析和思考.情報雜志,2002,(9)

11郝亞玲.DC元數據與網絡信息資源的描述.情報科學,2002,(10)

12中文元數據應用國際研討會會議文集./dcchina.