護理學免費資源實現研究

時間:2022-04-29 05:39:16

導語:護理學免費資源實現研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

護理學免費資源實現研究

1護理學免費資源知識元組織的必要性

根據是否收費,Web上護理學電子資源分為收費資源和免費資源兩種。收費資源如中國知網(CNKI)、萬方等電子數據庫,是護理學工作者獲取知識的主要途徑。由于其結構嚴謹,內容準確,為其知識組織方式由信息元過度至知識元提供了良好的基礎,如CNKI數據庫已經提供了知識元檢索途徑。在收費電子資源發展的同時,免費資源的發展也是日新月異,主要包括三類:①基于電子圖書、期刊的開源資源,如道客巴巴、百度文庫等。從目前資源的種類和數量上分析,開源資源的電子圖書、期刊、博碩論文已經與收費數據庫大體相當;②護理學電子論壇如丁香園、天使之城等。電子論壇向所有護理學工作者敞開了大門,是廣大護理學工作者交流工作經驗、思想體會的主要陣地,在資源種類和內容上與電子數據庫形成了良好互補;③護理學百科知識網站,如百度百科、搜搜百科等。百科類網站的誕生為廣大互聯網用戶提供了新的信息獲取途徑,其發展理念強調用戶的參與和奉獻精神,內容整體詳實準確。可見從資源的種類和數量上分析,護理學收費資源僅是免費資源的一個子集。然而,在知識的組織方式上后者與收費資源遠遠不能同日而語,整體處于無組織的狀態。這是由于免費資源分布過于廣泛,所有的內容沒有統一的結構格式要求,尤其是電子論壇信息的沒有審核的過程,不規范用語非常常見等等,在這種條件下,顯然信息元不可能成為免費資源的組織方式。為了合理組織這些資源,知識元組織方式最佳的選擇。

2護理學知識元的標引范圍

2.1限定開源資源的標引范圍

目前國內大型綜合類開源資源網站主要以道客巴巴、百度文庫和豆丁網為代表,筆者在3月19日以“護理學”為檢索詞向這三個數據庫的默認檢索方式進行檢索,分別得到956149、901090和401445個檢索結果,由于以上三者均是以電子期刊、電子圖書、學術論文、電子課件等作為資源收集的內容,從資源數量可以簡單的判斷道客巴巴的護理學資源最為豐富。因此,將開源資源的收集范圍限定在道客巴巴中,其他兩個數據庫沒有必要做重復的分析統計。

2.2限定電子論壇的標引范圍

包括護理學在內,各種電子論壇的整體資源質量與論壇服務時間往往成正比,如丁香園論壇始建于2000年7月23日,經過多年的發展,吸引了大量高素質醫學工作者的關注,內容也較為準確,信息每天都在動態更新;相比之下大量小的醫學論壇不具有較強的吸引力,內容的整體質量較低,而且即使對其進行標引,這些論壇未來也非常可能被市場所淘汰,無法找到標引所對應的知識內容,顯然對這樣的網站內容進行深入的知識挖掘幾乎沒有意義。因此有必要將論壇的范圍限制在2年以上,以此保充分提高對電子論壇知識元標引的質量和工作效率。

2.3限定百科全書類網站的標引范圍

主流的百科全書類網站主要有百度百科、搜搜百科、360百科、谷歌百科等等,通過名字即可發現這些網站均有一個共同的特點,即先有搜索引擎,后有百科,每個所有引擎都會首要的引用自身的百科知識,兩者相互促進發展。以上百科類網站的知識內容幾乎均涵蓋所有的學科范圍,種類和內容沒有明顯差別,但由于百度搜索引擎是市場占有率最大,在2012年11月占有率高達72.84%[2],可以說百度已經成為多數人檢索信息的習慣。相應的使百度百科自然成為百科類知識點擊率最高的網站,因此將范圍限定在百度百科中。

3知識元標引過程

3.1護理學免費資源的分詞

分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程,將沒有間隔符中文詞語變為機器可以理解的詞語。常用的分詞方法可分為三大類:基于字符串匹配的分詞法、基于理解的分詞方法和基于詞頻統計的分詞方法。基于理解的分詞方法模擬了人腦的理解過程,目前還處在試驗階段[3]。前文雖然對護理學免費資源的范圍進行了限定,但整體仍然是海量的,為了提高分析效率,保證分詞質量,本文設計了一種曲線高效的分詞方法。“曲線”表示為首先不直接對免費資源進行分詞,而是以CNKI中的期刊數據庫、報紙數據庫、博碩論文數據庫、會議論文等數據庫,和讀秀電子圖書數據庫為對象,采用字符串配算法進行分詞方法對其內容進行分詞。其原因如下:①電子期刊、博碩論文、會議論文等數據庫是高端人才交流前沿知識的主要陣地。這決定其內容整體具有極高的含金量,任何新的理論知識、高效的工作方法必然第一時間誕生在其中或必然有所體現,保證了分詞結果的全面性;②整體內容經過作者和編輯部多次審閱和校對,幾乎沒有錯別字和奇異詞,不需要對詞語進行語義理解的過程,保證了分詞結果的準確性;三、文獻數量范圍進一步縮小。筆者利用CNKI總庫檢索近5年發表的有關護理學方面的文獻,檢索表達式為:主題=護理(出版年:2009年3月29日—2013年4月29日)進行跨庫檢索,總計得到313643個檢索結果;以護理為檢索詞,在讀秀電子圖書中檢索得到35859個檢索結果,有限的內容具備開展字符串匹配算法的基礎。可見收費數據庫的特點完全彌補了字符串匹配算法的缺陷。“高效”表現在以此分詞結果為基礎,將整體分詞的結果作為字典,向免費護理學資源采取詞頻統計分詞的方法進行分詞,從而省去以往詞頻統計需要建立字典的復雜過程。分詞統計完成后減去中文停用詞表的分詞,就是最終的分詞結果。

3.2護理學免費資源的關鍵詞提取

提取關鍵詞是知識元標引的核心環節,主要有兩種方法,分別根據分詞的重要性和出現頻率作為提取依據。根據護理學各種免費資源自身物理結構的差異,如開源資源和百度百科對內容結構有嚴格的格式限制,尤其是關鍵詞、摘要是前者必備組成部分,后者雖然沒有對結構有如此細化的要求,但其內容的每個段落均有段落標題。可見以上兩者在結構上就對分詞間的輕重程度即權重進行了表達和說明。因此以各個分詞的重要性為依據提取關鍵詞。在提取算法的設計上,作者傅雷在碩士研究生論文中提出了一種基于TFIDF算法的權重改進型算法,即在TFIDF算法上,增加分詞的參考權重系數K,權重由標題、摘要、關鍵詞和正文四項組成,權重值分別為2、1.5、3和1。在計算時,被統計的文章所有分詞以此為參照物,若某一分詞與標題、摘要等項的分詞相同,就附以相應的權重值。以此進一步體現出文章結構與分詞重要性的對應的關系,將結算結果前10名的分詞設為關鍵詞,并經過實踐證明較為合理準確[4]。本文在此基礎上,對權重系數K進行了如下細化和修改。細化內容為,根據標準格式的論文和圖書結構中必有段落小標題,這是對段落或部分內容的總結性歸納,和美國學者P.E.Baxendale統計表明,反映段落主題的句子85%出現在段首,7%出現在段尾為原則[5],按著權重的重要性依次排序為段落小標題分詞>段首句分詞>段尾句分詞。相應的對權重值進行修改為2.5、2和1.5,即正文權重值1不變,新增三項依次以0.5遞增。標題、摘要、關鍵詞的權重值依次增加1.5,分別為3.5、3和4.5。若某一分詞同時與權重項的多個相同,按最大值賦予權重系數。同樣取前10個分詞作為關鍵詞。最后在道客巴巴和百度百科中各隨即抽取50篇文章,通過自動抽取的關鍵詞與人工抽取的關鍵詞相比較,計算出抽取精度、召回率和Fβ=1值分別為33%、87%和47.8%,較TFIDF權重改進型的算法的值均有所提高,結果較為理想。從電子論壇內容的格式分析,大部門內容由一段話組成,內容較少,甚至在百字以下。有限的內容使其產生分詞與其位置幾乎沒有重要的對應關系,這極大降低了知識元提取的難度。因此,選擇計算分詞出現頻率的方法提取關鍵詞,即依次計算每一個分詞的出現頻率取其平均值,將出現頻率高于平均值的分詞提取為關鍵詞。

3.3護理學免費資源關鍵句的提取

由于關鍵詞雖然可以表達概念,但無法完整的表達語義,從而無法準確的描述文章的知識,也不符合人們慣用的對文章的理解過程,相比之下句子才是表達知識的基本單位。因此,知識元以句子作為基本對象,能夠更加合理、準確、方便的描述知識元表述的內容。具體過程如下:首先根據關鍵詞提取的結果,將關鍵詞還原至所在的句子。然后對句子進行分析,判斷該句子是否能夠完整表達一個知識且不可再分,將符合條件的句子提取為關鍵句。由于以上過程較為簡單,在這里就不再贅述。3.4護理學免費資源知識元標引按著知識元的結構描述關鍵句就形成了知識元。隨著情報等學科對知識元研究的逐步深入,目前已經誕生較為合理的知識元描述框架[6]。

4知識元樹型組織

本文設計分類器的思想是根據知識元結構中的內容屬性設計的,整體分類器由三級組成:①設置護理學理論知識元與實踐知識元分類器,對Web上免費的護理學知識元進行初次分類。通過對護理學知識元內容的特點進行分析,發現以下詞語往往與護理學理論知識關系緊密,如分析、淺議、原理、概念、進展等,將以上詞語組織構建成為護理學理論知識分類器。以下詞語如治療、作用、效果、調查、步驟、比較、處置等與護理學實踐知識的內容相關,由此組成護理學實踐知識分類器。②在根據醫學廣義的內、外、婦、兒的分類,設置二級分類器,如心梗、心絞痛、腎炎等詞語組成內科護理學分類器等,同時根據護理學實際的研究和工作需要,增設護理學教學、護理學管理、護理學心里三個分類器[7]。③根據醫院科室的和醫學教學課程的設置,進一步細化分類器,如將內科護理學分類器細分為心內科護理學分類器、神經內科護理學分類器等[8]。當然,以上分類器的構建是一個非常繁瑣的過程,需要護理學權威專家進行仔細論證,受到作者水平能力的制約和篇幅的限制,只是進行簡單的框架描述,希望能夠起到拋磚引玉的作用。分類器構建完成后,通過對護理學知識元的內容屬性與分類器的詞語進行比較和分析,采用決策樹分類挖掘算法進行分類,將所有的知識元組織起來。

5未來努力方向

5.1對護理學隱性知識進行標引

知識元是顯性知識的最小可控單元,也就是說本文是將護理學顯性知識作為研究的對象,忽略了隱性知識的標引和組織。其實隱性知識與顯性知識相比更為重要,只是由于目前隱性知識的獲取和共享還存在許多實質性的問題,如部分隱性知識的顯性化存在一定的技術困難,加之缺乏合理的知識保護體系和鼓勵方法,限制了隱性知識整體的數量和質量。但近年來基于隱性知識的研究已經成為情報學等學科研究的重點,在一些學科隱性知識共享平臺初見雛形[9]。可以以預見不久的將來,隱性知識共享平臺將是人們獲取知識的嶄新途徑。當未來護理學隱性知識顯性化發展成熟時,有必要將該部分內容進行知識元層面的標引,擴大和豐富護理學知識的標引的范圍,將所有的護理學知識高效組織在一起。

5.2構建學習組織

知識元標引有效的解決了信息孤島的問題,是目前知識組織的最佳方法,但并沒有將知識的生產者有效聯系在一起,知識生產之間就像在獨立的包房中進行工作一樣,缺乏面對面的交流和協作。因此,本文計劃當護理學免費知識元標引逐漸完善成熟時,通過對用戶的檢索行為進行分析,動態的將查詢內容向同或相近的護理學工作者組成學習組織[10],尤其是將以高校、科研院所為主的護理學研究人員和以醫院為主的護理學臨床工作人員組織在一起,為理論知識和實踐知識的相互轉化創造良好條件。

作者:王春利工作單位:吉林醫藥學院附屬醫院護理部