數(shù)據(jù)管理計劃工具RDMO研究

時間:2022-10-20 09:01:26

導語:數(shù)據(jù)管理計劃工具RDMO研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)管理計劃工具RDMO研究

摘要:數(shù)據(jù)管理計劃是科研數(shù)據(jù)管理服務(wù)的第一步和基礎(chǔ),對良好的數(shù)據(jù)管理具有重要指導作用。文章以數(shù)據(jù)管理計劃工具rdmo研究對象,從開發(fā)目標、服務(wù)模式到設(shè)計方案進行分析,發(fā)現(xiàn)該工具以訪談形式為輸入,屬性為核心元素構(gòu)建信息組織關(guān)系,在應(yīng)用上采用機構(gòu)分散部署的方式,涵蓋整個數(shù)據(jù)生命周期,對于圖書館/信息機構(gòu)開發(fā)相關(guān)工具具有較高的參考價值。

關(guān)鍵詞:科研數(shù)據(jù);數(shù)據(jù)管理計劃;RDMO

數(shù)據(jù)管理計劃(DataManagementPlan,簡稱DMP)作為科研數(shù)據(jù)管理的第一步,是由科研人員撰寫,描述科研項目中如何管理、描述、分析和存儲可能獲取或生成的數(shù)據(jù),以及項目結(jié)束后如何共享和保存這些數(shù)據(jù)的正式文檔[1-2]。由于科研數(shù)據(jù)管理的后續(xù)步驟都包含在數(shù)據(jù)管理計劃之中,且數(shù)字管理計劃是科研數(shù)據(jù)生命周期全流程管理的出發(fā)點,所以良好的數(shù)據(jù)管理計劃是增強數(shù)據(jù)質(zhì)量、提升數(shù)據(jù)共享水平的基礎(chǔ)保障,也是后續(xù)數(shù)據(jù)存儲、組織等工作的落腳點和指南[3]。現(xiàn)階段,作為參與數(shù)據(jù)管理的重要工具,幾乎所有開展科研數(shù)據(jù)管理服務(wù)的圖書館都提供該服務(wù)[4]。數(shù)據(jù)管理計劃工具就是在此背景下,提供完善的數(shù)據(jù)管理計劃參考信息,并指導科研人員創(chuàng)建符合資助單位或是開放科學要求的工具。因此,設(shè)計、開發(fā)數(shù)據(jù)管理計劃工具是圖書館提升科研數(shù)據(jù)管理服務(wù)水平的重要任務(wù),對于數(shù)據(jù)管理工作具有重要的指導意義。目前,數(shù)據(jù)管理計劃工具主要包括:由DigitalCurationCenter(DCC)開發(fā)運行的DMPOnline[5]、加利福尼亞大學數(shù)字圖書館監(jiān)管中心(CDL)的DMPTool[6]、德國比勒菲爾德大學數(shù)據(jù)管理計劃工具OnlineTool[7]、柏林工業(yè)大學(TUBerlin)TUP-DMP[8]和德國生物數(shù)據(jù)學會GFBio開發(fā)的GFBioDMPTool[9]。其中最為常用的為DMPOnline和DMPTool。DMPTool的設(shè)計開發(fā)工作始于2011年,由5家美國高校圖書館、2家科學數(shù)據(jù)組織和1家博物館共同研制,目前共有268家機構(gòu),46911個用戶。DMPOnline最初由格拉斯哥大學的人文技術(shù)信息研究所按照DCC模型開發(fā),目前有203家機構(gòu),近18000個用戶。目前,DCC和CDL聯(lián)合開發(fā)版本DMPRoadmap也已經(jīng)上線。由于使用相對廣泛,所以針對數(shù)據(jù)管理計劃工具的研究普遍也以這兩種工具為主。

1文獻綜述

對于數(shù)據(jù)管理工具的相關(guān)研究成果方面,馬建玲等注意到國外圖書館在科研數(shù)據(jù)管理工具開發(fā)方面的工作,并介紹了數(shù)據(jù)管理計劃創(chuàng)建工具DMPTool[10];王凱等從開發(fā)路線、服務(wù)方式與需求建議的角度比較了DMPTool與DMPOnline二者的區(qū)別[11];王璞則分別介紹了DMPOnline和DMPTool的發(fā)展和目標,并指出盡管兩個工具有所差異,但都以集成式的DMP撰寫工具來促進數(shù)據(jù)管理的最佳實踐,已發(fā)展成為國際普及的數(shù)據(jù)管理計劃工具[12];吳海茹認為DMPTool可以加速科研人員創(chuàng)建數(shù)據(jù)管理計劃,更加熟悉科研資助單位的數(shù)據(jù)要求[13]。目前,針對現(xiàn)有科研數(shù)據(jù)管理計劃工具的研究還較少,主要集中在應(yīng)用方式方法層面,對于開發(fā)的依據(jù)、設(shè)計理念的研究還有所欠缺。在實際使用層面,DMPTool與DMPOnline主要針對英美兩國科研環(huán)境,所關(guān)聯(lián)的機構(gòu)數(shù)據(jù)要求也以本國為主。雖然機構(gòu)在使用上述工具時可以進行個性化配置,但對于我國這樣的科研大國,開發(fā)自己的工具尤為重要。而RDMO工具開發(fā)時參考了相關(guān)工具的不足,并進行了德國科研的個性化開發(fā),所以研究該工具,對于我國開展相關(guān)軟件工具的開發(fā)具有重要參考價值。

2RDMO工具概述

隨著開放科學的普及,科研數(shù)據(jù)已經(jīng)成為重要戰(zhàn)略資源,作為科研工作的基本保障,良好的數(shù)據(jù)管理計劃已經(jīng)成為大部分資助機構(gòu)的要求,無論科研人員本身還是所在機構(gòu)都需要利用有效工具進行科研數(shù)據(jù)管理。在此背景下,RDMO(ResearchDataManagementOrganiser科研數(shù)據(jù)管理組織工具)的開發(fā),由德意志研究聯(lián)合會(DFG)資助,波茨坦萊布尼茨天文物理研究所、波茨坦應(yīng)用技術(shù)大學和卡爾斯魯厄大學圖書館共同完成,第一階段從2015至2017年,第二階段從2017至2020年。如同DMPOnline和DMPTool,RDMO也是一款基于網(wǎng)頁的數(shù)據(jù)管理計劃軟件。RDMO的開發(fā)基于科研數(shù)據(jù)的全生命周期,所以適用于科研數(shù)據(jù)管理中涉及的所有參與者。同時,由于框架采用Python-Django和AngularJS,代碼開源(GitHub)[14],因此,RDMO可由科研機構(gòu)或大學獨立安裝,并且易于補充特定學科或機構(gòu)個性化的內(nèi)容。RDMO的安裝主要分為三部分,即rdmo-app、rdmo軟件包和數(shù)據(jù)庫。其中rdmo-app主要存儲本機構(gòu)的所有設(shè)置、自定義選項;rdmo軟件包則是由RDMO項目團隊集中維護的程序包;數(shù)據(jù)庫主要用于存儲用戶的科研數(shù)據(jù)管理計劃等機構(gòu)實際使用信息,數(shù)據(jù)庫管理系統(tǒng)可支持sqlite3、MySQL或PostgreSQL[15]。從使用形式上看與DMPOnline和DMPTool也較為類似,如面向科研人員,通過結(jié)構(gòu)化問題進行數(shù)據(jù)管理計劃的填寫,并可以選擇使用機構(gòu)模板;而對于機構(gòu)工作人員,也可以進行相關(guān)內(nèi)容審查、模板編輯功能。數(shù)據(jù)管理計劃主要是滿足科研項目申請階段的要求,一般在項目執(zhí)行階段前完成。所以,針對數(shù)據(jù)管理計劃的工具主要基于管理機構(gòu)、資助方模板建立一份科研數(shù)據(jù)使用的備忘錄,并沒有發(fā)揮數(shù)據(jù)管理計劃在科研數(shù)據(jù)全生命周期中的功能。而且在實際使用中,無論DMPOnline還是DMPTool,其主要圍繞各自國家資助機構(gòu)相關(guān)數(shù)據(jù)政策,并且采用集中管理模式,存在科研方向、研究內(nèi)容等敏感信息的泄露風險。因此,開發(fā)本國數(shù)據(jù)管理計劃工具具有重要現(xiàn)實意義。目前,RDMO已經(jīng)在德國科研機構(gòu)廣泛使用或試用。從機構(gòu)類別上看,主要包括三類:大型科研項目,如德國聯(lián)邦食品及農(nóng)業(yè)部畜牧業(yè)減排項目、德國聯(lián)邦教研部區(qū)域高校聯(lián)盟科研數(shù)據(jù)項目、德意志研究聯(lián)合會(DFG)研究數(shù)據(jù)生命周期中的分子數(shù)據(jù)管理項目等;科研機構(gòu)/高校圖書館/計算中心日常數(shù)據(jù)管理計劃服務(wù),共26家,包括尤里希研究中心、馬克斯普朗克數(shù)字圖書館、亥姆霍次材料能源中心等7家國家科研院所和17所高校;聯(lián)邦州科研數(shù)據(jù)基礎(chǔ)設(shè)施,如黑森州研究數(shù)據(jù)基礎(chǔ)設(shè)施聯(lián)盟、北威州數(shù)字高校研究數(shù)據(jù)基礎(chǔ)設(shè)施先導行動等。由于結(jié)構(gòu)化問題源自需求,又是良好實踐經(jīng)驗的總結(jié),因此,依托這些科研機構(gòu),RDMO可以提升學科適應(yīng)性,豐富結(jié)構(gòu)化問題。以德國的畜牧業(yè)減排項目(EmiMin)為例,服務(wù)團隊按照項目要求,設(shè)計工作流程,并根據(jù)各方的任務(wù)角色,建立與農(nóng)業(yè)技術(shù)相適應(yīng)的問題模板,開發(fā)出項目用數(shù)據(jù)管理計劃工具定制版RDMO4Life。下一步RDMO團隊將基于此,擴展相關(guān)問題,建立起適合農(nóng)業(yè)科學的RDMO。目前,RDMO在其GitHub平臺上共享了8份結(jié)構(gòu)化問題模板,包括DFG項目模板、經(jīng)濟學項目模板、教育科學模板、社會學模板、機械工程模板等。

3RDMO工具服務(wù)模式

RDMO主要面向數(shù)據(jù)管理計劃使用者,包括創(chuàng)建者即科研人員,以及數(shù)據(jù)管理計劃服務(wù)的管理者,即一般組織機構(gòu)的圖書館。相應(yīng)地,所使用的服務(wù)方式也有所區(qū)別。

3.1面向科研人員服務(wù)模式

科研人員服務(wù)模式如圖1所示。與DMPOnline和DMPTool最大的不同是,RDMO首先通過結(jié)構(gòu)化問題模板的方式引導科研人員完成科研數(shù)據(jù)在項目全周期各環(huán)節(jié)處理辦法的填寫,而非直接利用資助者或者相關(guān)機構(gòu)的數(shù)據(jù)管理計劃模板進行。這樣的好處在于,數(shù)據(jù)管理計劃不拘泥于某個具體模板,而是切實在科研過程中管理數(shù)據(jù)的內(nèi)容。問題模板選擇之后,科研人員按照問題進行相關(guān)內(nèi)容的填寫,過程中既可以按順序填寫各部分內(nèi)容,也可以跳過部分內(nèi)容或自由跳轉(zhuǎn),或以個人喜好的順序填寫各部分內(nèi)容。RDMO的另一個特點是在預(yù)覽階段,已填寫的內(nèi)容信息可以自動映射到具體資助機構(gòu)的數(shù)據(jù)管理計劃模板,減少了科研人員的重復(fù)勞動。此外,科研人員還可以在線存儲數(shù)據(jù)管理計劃,填寫完成后導出數(shù)據(jù)管理計劃或提交至所在組織機構(gòu)以待審查。服務(wù)的最后一步是用戶信息的添加和編輯,一個項目可能涉及多種用戶身份,RDMO設(shè)立4種身份供選擇,分別是項目負責人、項目經(jīng)理、組員和訪客。從訪問權(quán)限上看,項目負責人和項目經(jīng)理具有幾乎相同的編寫加工權(quán)限,區(qū)別只在于項目負責人可以添加/刪除項目,而組員具有讀和寫權(quán)限,訪客只有讀的權(quán)限。

3.2面向組織機構(gòu)的服務(wù)模式

對于組織機構(gòu),RDMO最重要的服務(wù)是問題模板的編輯以及計劃模板的添加。機構(gòu)管理員可以以現(xiàn)有問題模板為參考,增加/刪減機構(gòu)層面特有/無關(guān)的問題,而在數(shù)據(jù)管理計劃預(yù)覽階段,也可以添加本機構(gòu)或特定資助機構(gòu)的數(shù)據(jù)管理計劃模板,具備了較強的擴展特性。此外,RDMO對于機構(gòu)的服務(wù)還有面向軟件平臺的權(quán)限更改和配置,如用戶權(quán)限、賬戶信息等常規(guī)管理員功能。

4RDMO工具數(shù)據(jù)模型及要點

RDMO的數(shù)據(jù)模型如圖2所示。對于用戶而言,結(jié)構(gòu)化問題是RDMO中最明顯的部分。層級從高到低使用目錄、部分、子部分、問題集和問題進行配置。單個RDMO可以配置多個目錄,創(chuàng)建新項目時,用戶可以選擇要用于該項目的目錄。目錄包含多個部分和子部分,這些部分本身具有問題集,而具體問題可以直接添加到問題集中。問題為文本格式,顯示給用戶,并輔助一個可選的幫助文本。“域”模型是數(shù)據(jù)模型的核心部分,其功能是將訪談中的問題與用戶輸入聯(lián)系起來,并按照樹狀結(jié)構(gòu)組織。用戶項目中每條信息都由一個屬性表示,并采用目錄組織的形式,因此,這些屬性可以看作是“域”模型樹上的葉子,組織它們所代表的不同實體之間的聯(lián)系。如項目開始日期為帶有路徑的屬性project/schedule/project_start,該屬性本身鍵值為project_start,并位于屬性schedule中,而schedule本身又位于project中。“條件”與問題集相關(guān)聯(lián),并確定所控制的問題集在當前環(huán)境下是否有效。如果問題集無效,則不會顯示給用戶。“視圖”是允許在RDMO中使用的DMP模板,每一個模板都對應(yīng)一個“視圖”,該視圖可以使用基于HTML的Django進行編輯。在“視圖”中,管理人員可以人為的添加標題和幫助文本,并顯示在項目之中,幫助科研人員回答相關(guān)科研數(shù)據(jù)管理的問題。待結(jié)構(gòu)化問題填寫完成后,RDMO將根據(jù)用戶的回答提供跟進“任務(wù)”。“任務(wù)”具有標題和文本,通常情況下,“任務(wù)”與“條件”相關(guān)聯(lián),以確定特定項目是否需要。此外,由于“任務(wù)”本身具有“datetime”等時間屬性值,可以使用諸如項目開始或結(jié)束的答案來計算任務(wù)的時間范圍,因此便于進行時序管理。

4.1RDMO屬性結(jié)構(gòu)

從上節(jié)可以看出,每個問題所對應(yīng)的屬性是RDMO希望提取的核心元素,是整個數(shù)據(jù)組織的骨架。同時,屬性又是RDMO的信息基礎(chǔ),是數(shù)據(jù)管理計劃中信息顆粒度的重要指標。因此分析RDMO的屬性設(shè)計是理清工具功能的基礎(chǔ)。RDMO的屬性無外乎就是如何組織串聯(lián)每個任務(wù)和所包含的具體信息,所以,首先要明確科研數(shù)據(jù)管理的任務(wù)劃分和流程。科研數(shù)據(jù)管理主要由6個科研數(shù)據(jù)生命周期的獨立任務(wù),包括:計劃/創(chuàng)建、選擇/評估、獲取/接收、存儲/IT、保存手段以及訪問/使用,以及5個貫穿于全周期且交叉的管理任務(wù)組成,分別為:管理/政策、法律/道德、財務(wù)/資助、元數(shù)據(jù)和標識[16]。而RDMO的基本屬性結(jié)構(gòu),可以從其GitHub上的文檔得到,如表1所示(由于篇幅的原因,四級鍵值有所歸并和簡略)。從內(nèi)容上看,RDMO屬性包括funder、costs、legal_aspect、dataset等交叉管理任務(wù),而dataset中又包含creation、datacollection等數(shù)據(jù)生命周期獨立任務(wù),涵蓋了所有科研數(shù)據(jù)管理任務(wù)元素,具有較為全面的特點。從結(jié)構(gòu)上看,科研數(shù)據(jù)的基礎(chǔ)單位是項目,因此屬性以project為最高級。在二級中,除research_field、schedule等項目概述值外,主要包括:additionalrdm_policy、coordinator、partner、funder、costs、legal_aspect、dataset等,而三級則主要是二級值對應(yīng)的各個方面,四級以此類推。特點主要表現(xiàn)在:首先,以科研數(shù)據(jù)管理模型中具有交叉特點的管理任務(wù)為屬性結(jié)構(gòu)的主線(二級),而數(shù)據(jù)生命周期獨立任務(wù)則主要處于第三級,并融入相應(yīng)的二級指標中。這樣的好處在于,數(shù)據(jù)管理計劃的核心是管理,因此以管理實體,如科研人員、組織機構(gòu)、伙伴機構(gòu)劃分,可以明確主要干系人的任務(wù)/信息區(qū)塊,避免了管理實體交叉帶來的任務(wù)不清;其次,增加時間維度指標,在數(shù)據(jù)生命周期中任務(wù)步驟,如datacollection、datacleaning、dataanalysis等方面增加了執(zhí)行的起始和結(jié)束時間,明確了數(shù)據(jù)管理計劃的計劃性、動態(tài)性特征;最后,增加了責任人,如在機構(gòu)合作層面的coordinator和partner中明確了contact_person、name,在數(shù)據(jù)周期任務(wù)中,也出現(xiàn)如creator,owner,responsible或responsible_person等需要確立的相關(guān)責任人元素.

4.2互操作性

互操作性是RDMO與其他工具軟件或科研數(shù)據(jù)基礎(chǔ)設(shè)施信息共享的基礎(chǔ)。由于結(jié)構(gòu)化問題是唯一輸入,所以,RDMO互操作性的基礎(chǔ)是上節(jié)所述“域”內(nèi)問題——屬性與目標系統(tǒng)之間的有效映射。目前,RDMO互操作性主要針對DataCite的15個強制屬性和5個推薦屬性,具體如表1所示。從表中不難發(fā)現(xiàn),在映射時,RDMO非常注意問題——屬性和DataCite之間語義的對應(yīng)。如在“Publisher->dataset/preservation/repository”中,DataCite主要使用“Publisher”表明數(shù)據(jù)來源,所以在RDMO結(jié)構(gòu)化問題中,使用“storedorarchivedaftertheendoftheproject”(在項目結(jié)束后存儲或歸檔),既明確了時間為“項目結(jié)束后”,在用詞上使用“storedorarchived”,區(qū)別于一般概念上的“Publish”;再如“creatorName->project/dataset/creator_name”中,“creatorName”在DateCite中指數(shù)據(jù)建立者的姓名,格式為“姓,名”,在RDMO中,首先區(qū)別了creator和creatorName,前者可以為人或機構(gòu),而后者為DataCite所指的主要研究人員,并且在問題中給出了明確的解釋。

4.3服務(wù)體系

本研究的服務(wù)體系指RDMO軟件的使用者社區(qū)建設(shè)。類似其他需求驅(qū)動型開源軟件,完整的開發(fā)者和使用者的生態(tài)體系建設(shè)是成果的關(guān)鍵。在DMPTool和DMPOnline的開發(fā)設(shè)計時就考慮了這種互動關(guān)系。其主要原因有:(1)技術(shù)因素。單獨的數(shù)據(jù)管理計劃軟件本身是“空”的,結(jié)構(gòu)化問題和域內(nèi)的屬性元素需要不同機構(gòu)在使用過程中才能反復(fù)優(yōu)化,才能提高應(yīng)用性和適用性;(2)組織因素。科研數(shù)據(jù)價值的提升在于大規(guī)模匯集,因此,建立使用者-開發(fā)者社區(qū)建設(shè)是開放科學下科研數(shù)據(jù)共享的要求。由于RDMO在設(shè)計之初就考慮到了數(shù)據(jù)的隱私性,所以,RDMO社區(qū)建設(shè)的核心方針是,使分布在各地的不同RDMO使用機構(gòu)能夠在技術(shù)上“自給自足”,并以此方式進一步發(fā)展RDMO整體社區(qū)。因此,RDMO社區(qū)建設(shè)通過多種渠道開展雙方的交流,而RDMO團隊針對這些問題和需求進行再優(yōu)化。RDMO社區(qū)建設(shè)模式主要包括:(1)傳統(tǒng)的宣傳和培訓。在RDMO官網(wǎng)上有技術(shù)幫助文件的文本、視頻文件供下載,如快速使用手冊、如何生成、編輯結(jié)構(gòu)化問題等。(2)技術(shù)文檔解決方案。在RDMO網(wǎng)站內(nèi),開發(fā)者公開了技術(shù)文檔手冊包括安裝、部署、配置,在涉及科研數(shù)據(jù)管理的內(nèi)容上,也有相應(yīng)的問題-屬性等核心字段。(3)RDMO在機構(gòu)數(shù)據(jù)基礎(chǔ)設(shè)施的整合服務(wù)。一方面協(xié)助機構(gòu)進行RDMO的整合,如RDMO與不同專業(yè)學科、不同機構(gòu)展開合作,建立適用不同專業(yè)或特定機構(gòu)的的數(shù)據(jù)管理計劃工具版本。另一方面,RDMO還積極融入到現(xiàn)有科研基礎(chǔ)設(shè)施中,特別是一些德國參與建設(shè)的平臺,如re3data(全球科研數(shù)據(jù)知識庫注冊系統(tǒng))、RADAR(通用科研數(shù)據(jù)知識庫)。(4)交流平臺,如GitHub、建立聊天群組、郵件列表等。(5)使用者大會。從2018年開始,每年召開一次使用者大會,在大會上,RDMO服務(wù)團隊及用戶就軟件的使用、問題和需求開展一些列講座和研討。

5RDMO工具特點

5.1以模板為驅(qū)動轉(zhuǎn)變?yōu)橐越M織為核心

隨著科研數(shù)據(jù)愈發(fā)重要,數(shù)據(jù)管理計劃逐漸成為科研機構(gòu)或是資助者在項目執(zhí)行前所提供的必需材料。從目前主要數(shù)據(jù)管理計劃工具看,資助者模板是計劃的最初驅(qū)動。在完成數(shù)據(jù)管理計劃時,基本與科研機構(gòu)或資助機構(gòu)的數(shù)據(jù)管理要求相關(guān)聯(lián),而對于沒有現(xiàn)成模板的情況,結(jié)構(gòu)化的問題則相對簡單,如DCC基礎(chǔ)模板,對于未來實際科研數(shù)據(jù)管理指導性、操作性不強。而RDMO使用一般化的問題,依管理任務(wù)進行切分,內(nèi)容涵蓋整個科研數(shù)據(jù)管理流程,又在相關(guān)步驟中明確責任人,可以依照不同角色安排任務(wù)。在技術(shù)上,模板中的每個問題與屬性相對應(yīng),便于進行信息的提取-交互,也便于融入到其他工具和系統(tǒng)之中,從而形成一份可執(zhí)行、可擴展的數(shù)據(jù)管理計劃。

5.2分布式部署

當前的數(shù)據(jù)管理計劃工具多為集中管理方式,這種方式存在數(shù)據(jù)安全和機構(gòu)/國別適應(yīng)性方面的問題。而RDMO允許進行機構(gòu)/項目/聯(lián)盟等多種方式的分布式部署,既保證了科研項目/科研數(shù)據(jù),特別是一些敏感信息的安全性,在應(yīng)用層面又便于使用方按照機構(gòu)特點或?qū)W科特征進行編輯和優(yōu)化,具備了較強的擴展能力。由于RDMO的組成結(jié)構(gòu)較為簡單,主要包含rdmo-app、rdmopackage和database3個部分,因此,從安裝到配置都較為簡單,且源代碼在GitHub上公開。對于軟件更新的問題,則主要通過建立技術(shù)社區(qū)、收集問題、工具軟件包更新的方式進行。

5.3互操作的擴展特性

目前,如DataCite、re3data等基礎(chǔ)設(shè)施在科研數(shù)據(jù)領(lǐng)域,已經(jīng)成為科研數(shù)據(jù)的必要組成。因此,數(shù)據(jù)管理計劃作為科研數(shù)據(jù)管理的基礎(chǔ)和出發(fā)點,互操作性是與其他軟件/基礎(chǔ)設(shè)施一起工作并共享信息的保證。在RDMO中,所有結(jié)構(gòu)化問題都對應(yīng)了一個屬性,同時一些關(guān)鍵詞匯也來自RDMO內(nèi)部的規(guī)范詞匯表。因此,互操作性既是軟件內(nèi)部問題——模板的自動關(guān)聯(lián),實現(xiàn)自動提取,降低科研人員工作量的重要保障,又是與外部一些科研數(shù)據(jù)常用基礎(chǔ)設(shè)施進行信息共享的基礎(chǔ)。如上文所述,RDMO已經(jīng)與DataCite中的20個強制屬性和可選屬性進行了映射。目前,RDMO正在通過開發(fā)相應(yīng)模塊和元數(shù)據(jù)模型來實現(xiàn)與其他系統(tǒng)的信息共享,以及與機構(gòu)本身科研管理相關(guān)聯(lián)的功能,如將RDMO鏈接到科研信息系統(tǒng)(FIS),實現(xiàn)元數(shù)據(jù)的接口和標識符系統(tǒng),采集科研數(shù)據(jù)成果。

5.4建立多維度社區(qū)服務(wù)

通過建立社區(qū)實現(xiàn)開發(fā)者與用戶之間的交流是開源工具軟件持續(xù)優(yōu)化的保障。在RDMO中,這種信息交互是多維度的。從內(nèi)容上看,既有傳統(tǒng)媒介的宣傳和培訓,又有目前開發(fā)人員使用較為廣泛的GitHub、Slack、Twitter等,通過多種渠道建立聯(lián)系,廣泛收集問題和需求,實現(xiàn)反復(fù)優(yōu)化迭代;從組織上看,有學科、機構(gòu)、聯(lián)盟等不同合作模式,一方面可以推廣工具軟件的使用,另一方面可以擴展軟件在學科和使用環(huán)境的適用特性,為衍生出不同版本的RDMO提供了基礎(chǔ)。

6對我國科研數(shù)據(jù)管理的啟示

縱觀我國科研數(shù)據(jù)管理研究,主要從服務(wù)的范疇和任務(wù)(如內(nèi)容、參與者)、治理(如機構(gòu)科研數(shù)據(jù)政策)、執(zhí)行(圖書館在科研數(shù)據(jù)管理服務(wù)的作用)和實踐(科研數(shù)據(jù)管理服務(wù)平臺建設(shè))開展,并取得了大量研究成果,但具體工具軟件卻較少。而數(shù)據(jù)管理計劃作為科研數(shù)據(jù)管理的服務(wù)的首要內(nèi)容,其工具軟件的開發(fā)設(shè)計,對于我國圖書館/信息機構(gòu)開展相關(guān)服務(wù)都具有重要參考價值。

6.1開發(fā)我國自己的數(shù)據(jù)管理計劃工具

數(shù)據(jù)管理計劃工具是規(guī)范科研數(shù)據(jù)管理,增強數(shù)據(jù)質(zhì)量以及提升數(shù)據(jù)共享意愿的重要工具軟件,也是發(fā)揮圖書館/信息機構(gòu)在數(shù)據(jù)治理中作用的重要手段。2018年,我國科研機構(gòu)和高校各類研究與試驗發(fā)展項目接近120萬項[17],僅國家層面的自然科學和社會科學基金2019年就達到50000余項[18-19],這還不算數(shù)量更為巨大的省市系統(tǒng)基金資助項目。一方面,若使用國外相關(guān)工具,在適用性上無法保證,另一方面,還有泄露重要科研敏感信息的風險。德國作為科研大國和強國,從2015年開始開發(fā)自己的數(shù)據(jù)管理計劃工具RDMO,保障自身科研需要。2018年4月國務(wù)院辦公廳印發(fā)《科學數(shù)據(jù)管理辦法》,旨在進一步加強和規(guī)范科學數(shù)據(jù)管理,保障科學數(shù)據(jù)安全,提高開放共享水平[20]。因此,開發(fā)我國自己的數(shù)據(jù)管理計劃工具,具有重要現(xiàn)實意義。

6.2注重可執(zhí)行性

科研數(shù)據(jù)管理計劃并不只是為了滿足資助方的數(shù)據(jù)管理要求,不能局限在一個靜態(tài)的文檔,其目的是增強數(shù)據(jù)在全生命周期的有效管理,保障科研數(shù)據(jù)的質(zhì)量,增強可復(fù)用性。因此,數(shù)據(jù)管理計劃工具在開發(fā)過程中應(yīng)在以下方面注重可執(zhí)行性。可執(zhí)行性的基礎(chǔ)就是參與者可以找到自己所需要的信息。具體來看,應(yīng)注重問題顆粒度設(shè)計和相關(guān)方需求的辨析。首先,數(shù)據(jù)管理計劃的結(jié)構(gòu)化輸入應(yīng)盡量明確,以科研數(shù)據(jù)管理中的必要元素為核心設(shè)計問題模板,引導科研人員做出盡量標準、規(guī)范的回答,收集到所需信息;其次,科研數(shù)據(jù)管理涉及多方共同協(xié)作,包括數(shù)據(jù)生產(chǎn)方(科研人員)、服務(wù)提供方(圖書館/技術(shù)中心)、科研數(shù)據(jù)基礎(chǔ)設(shè)施以及項目資助者,所以,數(shù)據(jù)管理計劃應(yīng)滿足不同角色的使用需要,如對于科研人員,類似項目的DMP案例、元數(shù)據(jù)的使用規(guī)范是其正確填寫的基礎(chǔ),而對于資助方,可能來自科研人員未來數(shù)據(jù)的存儲方式、地點和成本回答是最為重要的信息。

6.3注重互操作性

互操作性是可執(zhí)行性的重要基礎(chǔ)。互操作性主要分為3個維度:(1)工具軟件內(nèi)的信息可以充分交互。如在RDMO中,結(jié)構(gòu)化的輸入與不同數(shù)據(jù)管理計劃模板相關(guān)聯(lián),便于信息的提取,此外,對于一些具備唯一性的實體也應(yīng)當進行標記,以便不斷完善數(shù)據(jù)管理計劃數(shù)據(jù)庫內(nèi)容,為科研人員撰寫數(shù)據(jù)管理計劃提供良好的幫助和指導。(2)與其他數(shù)據(jù)基礎(chǔ)設(shè)施的互操作。其他數(shù)據(jù)基礎(chǔ)設(shè)施主要指包括如DataCite、re3data等在內(nèi)的數(shù)據(jù)索引、知識庫登記系統(tǒng)。這些系統(tǒng)是科研數(shù)據(jù)、再利用的重要保障。(3)數(shù)據(jù)管理計劃與科研信息系統(tǒng)的互操作。一方面,數(shù)據(jù)管理計劃中諸如項目信息、資助信息來自科研信息系統(tǒng),另一方面,科研信息系統(tǒng)也需要在數(shù)據(jù)管理計劃中提取如大型儀器的使用、成果數(shù)據(jù)進行相關(guān)領(lǐng)域的評估。在開發(fā)階段,應(yīng)著重從方案語義和持久標識符兩個方面考慮。方案語義是不同信息相互映射的基礎(chǔ)。在數(shù)據(jù)管理計劃工具的數(shù)據(jù)模型設(shè)計中,可按照不同系統(tǒng)方案中的語義,通過注釋信息或向用戶提供標準描述列表來實現(xiàn)和規(guī)范,如RDMO就使用如注釋信息來解釋creatorName,利用問題中store和archive來解釋publish在不同方案的含義。而對于持久標識符,應(yīng)從人-機構(gòu)進行標識,如學者身份ID、知識庫標識、資助者標識、項目計劃標識。

6.4注重用戶社區(qū)建設(shè)

建設(shè)完善的用戶社區(qū)是數(shù)據(jù)管理計劃軟件成功的關(guān)鍵。首先,數(shù)據(jù)管理計劃本身由于可能涉及各機構(gòu)的敏感數(shù)據(jù),技術(shù)上一般需采用分布式部署,滿足自有數(shù)據(jù)的獨立性;其次,對于軟件的輸入-結(jié)構(gòu)化問題必須不斷優(yōu)化,因此,又需要為工具軟件不斷進行核心功能的迭代和升級。而內(nèi)容上,只有盡可能豐富來源,才能建立起更為貼近實際的問題輸入,以及更為全面的語義方案,從而提升工具軟件的可執(zhí)行性和互操作性。在具體工作中,用戶社區(qū)建設(shè)的關(guān)鍵在于多維度,多維度應(yīng)包括機構(gòu)、學科、形式三個方面。機構(gòu)上,包括項目執(zhí)行機構(gòu)(如高校、科研機構(gòu))和項目資助機構(gòu),并盡可能廣泛推廣;學科上,應(yīng)注意學科領(lǐng)域分類或科研數(shù)據(jù)類型范圍,盡量將研究領(lǐng)域相近、元數(shù)據(jù)類似的學科整合在一起,構(gòu)建適用于機構(gòu)和學科領(lǐng)域?qū)用娴臄?shù)據(jù)管理計劃工具;同時,形式上,建立以開源形式的技術(shù)文檔庫為核心,以網(wǎng)絡(luò)社區(qū)、聊天群組為主要交流形式,輔之以定期的培訓和用戶大會等多方面、多角度的培訓。

作者:周雷