中醫藥數據挖掘系統的實踐與應用
時間:2022-04-22 08:24:44
導語:中醫藥數據挖掘系統的實踐與應用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:為推動中醫藥研究的發展,并為中醫藥數據應用提供有效的挖掘技術支持,本文設計了基于TCMMiner數據庫的中醫藥數據挖掘系統。在總體思路、總體設計、功能設計、工作流程設計以及完善設計等方面,對系統設計進行細致的闡述。在文本處理、頻次統計、關鍵詞關聯分析以及作者高頻組合分析等方面應用該系統,結果表明本文設計的中醫藥數據挖掘系統為中醫藥數據挖掘和應用提供了非常有效的工具。
關鍵詞:中醫藥數據挖掘系統;TCMMiner數據庫;關鍵詞關聯分析;作者高頻組合分析
大數據技術在中醫藥領域的應用,為中醫藥研究、疾病診治等方面提供了技術支撐[1]。由于中醫藥數據具有不規范性、小樣本、寬數據以及信息復雜等特點,因此中醫藥數據挖掘與傳統“數據挖掘”存在較大差別[1]。基于中醫藥數據特征的分析,以突破中醫藥數據挖掘的局限性為重點,設計以TCMMiner數據庫為基礎的中醫藥數據挖掘系統。實驗結果表明,本文設計的數據挖掘系統能夠有效幫助系統使用人員進行數據拆分與合并及數據挖掘等工作,在有效節約數據提取與應用時間的基礎上,為中醫藥研究工作提供了更有效的參考。
1中醫藥數據挖掘系統的構建
1.1總體思路
中醫藥數據挖掘系統的構建需要以技術適應性為基本點,以中醫藥診療思路和特征分析為重點,確保數據挖掘系統具有高度辯證性為前提,構建多維度、多視角的數據挖掘系統[2]。
1.2系統總體設計
基于設計的總體思路,以充分發揮系統的價值為目標,設計包括頁面、應用、功能服務、技術以及數據管理5大層次的數據挖掘系統[3],如表1所示。
1.3系統功能設計
數據挖掘系統設計通常應用關聯規則、分類、聚類等方法,包括數據挖掘、數據分析和數據應用等內容,可以實現數據信息的精準選擇、變換、評估等[4]。為有效設計與實現中醫藥數據挖掘系統,結合中醫藥數據的特點,設計了10個功能模塊,包括數據拆分與合并、頻次統計、矩陣轉換數據文本轉換以及關聯規則挖掘等[5-6],具體如圖1所示。數據拆分與合并方面,中醫藥的處方數據信息較多,且數據信息的呈現方式具有特殊性,需要數據挖掘系統對處方數據信息進行有效挖掘、統計及修正。結合表1的內容可知,本系統設計應用TCMMiner數據庫,該數據庫可以實現數據的拆分與合并,有利于中醫藥處方數據信息的進一步統計和處理。頻次統計方面,頻次統計主要是對數據進行統計分析。由于中藥處方數據信息具有特殊性,通常存在證候的正異名統計問題,因此本次系統設計時,在TCMMiner數據庫中錄入中藥、證候等中醫藥術語內容,以提高術語及中醫藥處方信息的規范頻次,確保數據挖掘具有精準性和全面性。為提高頻次統計過程中的證候正異名統計實效,本系統錄入了2016年版《醫學主題詞表(中文)》和2015年版《中華人民共和國藥典》等術語詞匯包,為提高頻次統計的規范性和精準性以及數據挖掘的實用性與針對性奠定了堅實基礎。文本抽取方面,中醫藥處方數據信息通常以大段文字的形式存在,難以避免其中存在無效信息,在一定程度上增加了數據挖掘的復雜性。應用TCMMiner數據庫,對處方數據信息進行處理分析和提取,在提高文本抽取效率的基礎上,為分析處方用藥規律奠定了堅實基礎。考慮到在實際工作中,文本格式無法被數據挖掘系統直接提取和分析,需要進行文本格式轉換,本系統設計應用了中醫藥ETL模塊,對文本格式進行多格式的轉化。矩陣轉換方面,數據挖掘軟件計算功能的設計與實現需要應用TCMMiner數據庫技術,對數據的形式、格式等進行轉換,以實現用戶與常規的數據挖掘軟件聯合使用。另外,本系統中設計了數據矩陣模塊,該模塊可以提供逆矩陣計算方式,能夠完成符號分隔數據的轉換與計算,為數據挖掘及應用提供了極大便利。關聯規則挖掘方面,關聯關系挖掘可以發現數據信息之間的隱藏關系。基于數據挖掘算法,設置最小支持度、最小置信度來提高數據關聯性的分析效率,可以更有效地獲取數據信息的規律,并實現相關信息的組配關系分析。聚類挖掘方面,本系統設計將聚類挖掘確定為以相似性為標準的個體分類方式。應用k-means算法,設置k值,以便找到聚類個數。貝葉斯處理方面,在已知的樣本中應用貝葉斯分類方法,根據樣本類型數據模型,預測未知類型樣本的特定概率,可以在計算中藥、癥候等要素間概率關系方面發揮重要作用。除上述內容外,本研究以強化中醫藥的傳播與交流為目標,在系統設計過程中設計并應用了專業文章翻譯模塊。由于翻譯軟件存在中醫藥信息翻譯精度不高等問題,所以本研究選擇在系統中錄入《醫學主題詞表(中文)》,并以此為翻譯標準,對中醫藥術語等內容進行精準翻譯。
1.4系統工作流程設計
在設計挖掘系統的工作流程方面,考慮到中醫藥數據的特征以及數據挖掘與應用需求,在文件上傳、參數配置、結果展示和結果下載等4個方面進行流程設計。文件上傳是系統用戶將文件上傳到系統數據庫中,系統進行文件數據的展示;參數配置是基于不同功能服務的應用,對不同數據參數設置、參數應用需求進行分析,實現以用戶服務為目標的參數設置;結果展示是系統用戶可以根據實際需求,在頁面中選取和查看所需參數結果;結果下載是系統用戶可以將參數結果下載到本地使用。
1.5系統完善設計
為保證系統具有良好的應用價值,在本系統設計的過程中進行了缺失值的處理和噪音數據的處理。缺失值處理方面,在中醫藥處方信息提取和應用過程中,有可能出現數據缺失的問題,例如中醫藥臨床輔助決策中各類中藥的用量等數據確實難以為中醫藥研究、藥物組合的應用提供有力依據和參考。為了應對此情況,以中醫藥數據特征分析為基礎,以數據決策目標為重點,應用缺失值填充算法補充和完善缺失的數據信息。例如,在本系統設計中,應用平均值填充法對缺失的數值類數據進行填充和完善。噪聲數據處理方面,本系統設計主要是針對一詞多義、詞義交叉等噪聲數據進行處理。噪聲數據處理方法主要是以《中醫診斷術語標準》《中華人民共和國藥典》《中藥學》等為依據和標準,對噪聲數據進行規范、刪除等處理,確保數據挖掘和應用的精確性。
2.1文本處理
以搜索“針灸療法”為例,在系統中搜索該文本內容,以2018—2021年為時間期限,搜索到460條記錄。搜索完成后,系統用戶可以根據實際需求選擇文本進行下載,下載格式為.txt,隨后應用TCMMiner,將下載的文本格式轉換為Excel格式。
2.2頻次統計
本系統可以通過TCMMiner將數據轉換為單獨詞語,并對詞語及相關詞匯的使用頻次進行統計分析,如中醫藥數據的錄入時間、中醫藥詞匯來源、所搜文本的關聯內容等。
2.3關鍵詞關聯分析
通過關鍵詞的關聯分析,可以更加充分的了解某個領域的研究熱點,對中醫藥研究發展等具有積極意義。基于此目標分析,在中醫藥數據挖掘系統中,應用統計產品與服務解決方案(StatisticalProductandServiceSolutions,SPSS)層次聚類法,實現了關鍵詞的聚類分析,并通過TCMMiner的應用,實現關鍵詞詞列向數據矩陣的轉換。以“白術、半夏”為例,導入需要進行數據挖掘的源數據,在病名處選擇“咳嗽”并將支持度和置信度選擇為0.5。隨后進行分析,得出表2結果。由表2可知,數據挖掘系統中,搜索到關于治療“咳嗽”的藥物組合中,白術→半夏,半夏→白術,薄荷、白術→半夏,薄荷、半夏→白術的置信度皆為100%;白術→半夏、半夏→白術的支持度為79.23%。由此分析可知,白術、半夏為治療“咳嗽”的常用藥,且使用頻率較高。
2.4作者高頻組合分析
應用TCMMiner的關聯規則,對高頻組合內容進行挖掘,可以找出高頻組合內容,為數據應用情況及中醫藥研究項目情況的分析提供有力支持,具體如表3所示。通過實踐應用分析表明,本文設計的中醫藥數據挖掘系統具有較高的應用價值。由于中醫藥數據信息的更新速度較快,且原有中醫藥詞表無須更新,在使用時間的積累下,系統中的數據規模不斷擴大,數據挖掘算法逐漸增多。為保證系統應用有效性,需要不斷優化和增強系統功能。本系統設計應用了TCMMiner數據庫,不僅可以綜合應用中醫藥數據挖掘功能服務模塊,還可以對服務模塊進行優化和完善,為系統有效應用及系統數據更新提供更有力的技術支持。
3結語
中醫藥數據挖掘系統的設計與應用對中醫藥研究等產生重要影響。本文綜合中醫藥數據特征的分析,設計了基于TCMMiner數據庫的中醫藥數據挖掘系統。以實踐應用為視角,在文本處理、頻次統計、關鍵詞關聯分析以及作者高頻組合分析這4個方面驗證了系統應用的有效性。結果表明,基于TCMMiner數據庫的中醫藥數據挖掘系統為中醫藥數據挖掘及應用提供了有力支撐和有效工具。綜合而言,本次系統設計應用未從社會效益、數據更新視角對系統進行優化設計和研究,需要在后續研究中進行深度的分析和探索,以豐富研究成果,從而為中醫藥數據挖掘及中醫藥研究等工作提供更有力的系統技術支持。
參考文獻
[1]許雪蓮,吳昆侖.數據挖掘技術在中醫藥研究中的應用[J].河南中醫,2020,40(11):1633-1637.
[2]王金虹,馬斌,李艷彥.基于相關系數與關聯規則分析的中醫藥防治新型冠狀病毒肺炎用藥規律研究[J].中國中醫藥圖書情報雜志,2022,46(1):1-5.
[3]陳洪雁,張大偉,萬俊偉,等.基于大數據的空間目標監測數據管理系統設計與應用[J].航天電子對抗,2020,36(4):11-14.
[4]狄宏林,吳瑕,周勇.聚類算法與關聯規則在智慧校園數據分析中的創新應用與研究[J].貴陽學院學報(自然科學版),2021,16(4):16-19.
[5]伍嘉儀,翁衡,鄭瑋琳,等.基于中醫藥大數據智能處理與知識服務系統探析經行頭痛臨床特征與方藥規律[J].廣州中醫藥大學學報,2020,37(9):1808-1815.
[6]張靜美,陳曉陽,秦慶廣,等.基于數據挖掘與網絡藥理學探討徐學功治療冠心病PCI術后中藥使用規律與作用機制[J].中醫藥導報,2021,27(8):148-153.
作者:張晨 單位:中國中醫科學院眼科醫院
- 上一篇:中職生數學思維能力培養策略
- 下一篇:傳統茶文化在新媒體環境的傳播策略