透析證候研究中變量聚類結果
時間:2022-05-16 05:53:00
導語:透析證候研究中變量聚類結果一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
近年來,有不少學者利用系統變量聚類方法對西醫病種中中醫癥狀的分布情況進行研究。例如,麻氏等[1]通過對739例膽病病案進行分析,得到9個類,并把它們分別詮釋為肝膽濕熱證、肝膽郁熱證、肝膽蘊熱證、肝膽氣郁證、血瘀證、脾失健運證、陽虛寒濕證、陰虛內熱證和熱毒亡陽證。筆者剖析系統變量聚類結果的統計學含義,并基于此討論把它們詮釋為證候的合理性。我們的結論是,變量聚類的結果不能詮釋為證候。
1變量聚類結果的統計學含義
在麻氏等[2]分析的膽病數據中,癥狀變量全部是二值的。分析所得的變量類之一如下。
類1:發熱寒戰、右上腹壓痛拒按、黃疸、惡心嘔吐、右上腹疼痛、大便秘結、小便色黃、苔黃、苔膩、脈滑、脈弦、口苦。
本節以這個類為例,剖析系統變量聚類結果的含義。要準確把握這個類的含義,需要考慮3個因素,即“變量”與“事件”這兩個概念的區別、變量間相似系數的定義以及變量類間相似系數的定義。下面逐一討論這3個因素。
1.1變量與事件
變量是刻畫事物某方面特征的指標,它的每一個取值對應一個事件。先拿概率論中常用的拋擲硬幣試驗為例來解釋這兩概念。拋擲硬幣試驗可以從多個方面來看:使用的硬幣是否質地均勻、拋擲方式如何、拋擲結果是什么等等。“拋擲結果”這個指標刻畫試驗一個方面的特征,因此它是一個變量。這個變量有兩個可能的取值,即“正面朝上”和“反面朝上”。于是有兩個事件,即“拋擲結果正面朝上”和“拋擲結果反面朝上”。
接下來看一個中醫的例子。“有無口苦”是反映患者身體一個方面特征的指標,因此它是一個變量,稱為癥狀變量。它有兩個可能的取值,即“有”和“無”。于是有兩個癥狀事件,即“(患者)有口苦”和“(患者)無口苦”。如果要考慮不同輕重程度,相應的變量是“口苦程度”。一般情況下,程度變量有4個可能的取值,即“無”、“輕”、“中”和“重”。于是有4個癥狀事件,即“無口苦”、“有輕度口苦”、“有中度口苦”和“有重度口苦”。為了統一二值和多值情況下癥狀變量的稱謂,可以用“口苦情況”來替代“有無口苦”和“口苦程度”。
“有口苦”這個詞通常被簡化為“口苦”。同時,“口苦情況”也被簡化為“口苦”。這樣,“口苦”時而指“口苦情況”這個變量,時而又指“有口苦”這個事件。在下一節讀者將會看到,這種歧義性造成了對變量聚類結果之含義的誤解。
顧名思義,變量聚類的對象是變量而不是事件,其結果是變量的類而不是事件的類。所以,類1的成員是“口苦情況”等癥狀變量,而不是“有口苦”等癥狀事件。為了避免誤解,我們把類1的定義改寫如下。
類1:發熱寒戰情況、右上腹壓痛拒按情況、黃疸情況、右上腹疼痛情況、惡心嘔吐情況、大便秘結情況、小便色黃情況、苔黃情況、苔膩情況、脈滑情況、脈弦情況、口苦情況。
1.2變量類相似系數
“口苦情況”等12個癥狀變量為什么會被聚成一類呢?它們被聚成一類這件事的含義是什么?一個粗略的回答是,這意味著“口苦情況”等12個癥狀變量之間的相似度高。如果要準確回答這個問題,則需要考慮如何基于變量之間的相似系數定義類之間的相似系數。
常用的方法有最大相似系數法、最小相似系數法和平均相似系數法。在計算兩個類A和B間的相似系數時,考慮A中變量與B中變量間的相似系數。最大相似系數法取其最大者,最小相似系數法取其最小者,而平均相似系數法取平均數[2]。
如果類1是用最大相似系數法獲得的,那么對類中任意一個變量V,類中有另外一個變量U使得V和U間的相似系數不低于某個閾值。如果類1是用最小相似系數法獲得的,那么類中任意兩個變量間的相似系數不低于某個閾值。如果類1是用平均相似系數法獲得的,那么類中變量間的相似系數的平均值不低于某個閾值[2]。
上面提到閾值是怎樣決定的呢?在獲得類1的過程中,需要合并多對變量類,而每對類之間都有一個相似系數。這些相似系數的最小者就是上面說的閾值。一般說,最大相似系數法的閾值最大,平均相似系數法的閾值次之,最小相似系數法的閾值最小。
1.3變量相似系數
變量間相似系數的高低的直觀含義是什么?這個問題的答案依賴所選用的相似系數是什么。相似系數有各種各樣的類型[2]。作為例子,這里只討論Jaccard相似度和相關系數。
Jaccard相似度只適用于二值變量。下面用一個例子來說明它的定義和直觀含義。用d記脈弦和口苦同時出現的樣本數,b記脈弦出現而口苦不出現的樣本數,c記脈弦不出現而口苦出現的樣本數。“脈弦情況”和“口苦情況”這兩個變量的Jaccard相似度定義為d/(b+c+d)。Jaccard相似度的取值在0~1之間,可以視為是癥狀出現的“同步率”。它的值越高,脈弦和口苦出現時的“同步率”就越高,即脈弦和口苦的出現更接近如下情況:要么兩者都不出現,要么兩者都出現。
相關系數是統計學中用來度量數字變量間關聯程度的一個指標。如果把癥狀的出現表示為1,不出現表示為0,那么就可以定義“脈弦情況”和“口苦情況”間的相關系數。相關系數的取值在0~1之間。當兩個變量的可能取值相同時,它們之間的相關系數也可視為是一種“同步率”。“脈弦情況”和“口苦情況”間的相關系數越高,脈弦和口苦同時出現或同時不出現的次數也就越多,反之亦然。
1.4類1的含義
在分析數據時,麻氏等[1]用的是SAS軟件。由于他們未提及軟件設置,所使用的變量相似系數應該是SAS默認的Jaccard相似度,而所使用的變量類相似系數應該是SAS默認的平均相似系數。所以,類1是一個由口苦情況等12個癥狀變量組成的集合,其含義是這12變量兩兩之間的Jaccard相似度平均不低于某個閾值,即口苦等12個癥狀兩兩同步出現的頻率平均不低于某個閾值。
2證候的含義
證候是一個具爭議性的概念。但是,在詮釋變量聚類結果時人們所使用的證候其意義基本是統一的、清楚的。例如,在把類1詮釋為肝膽濕熱證時,“肝膽濕熱證”對應由口苦等12個癥狀(事件)組成的癥狀群,其意義如下:①如果這些癥狀全部(或其大多數)在某患者身上同時出現,那么該患者有肝膽濕熱證;②如果這些癥狀中許多不在一患者身上出現,那么該患者無肝膽濕熱證。
3變量聚類結果的詮釋
現在我們以類1為例來討論變量聚類的詮釋問題。在文獻[1]中,類1被詮釋為肝膽濕熱證。這是由于類1被認為是由“有口苦”等12個癥狀事件組成的集合,進而其意義被理解為口苦等12個癥狀同時出現。在把類1詮釋為肝膽濕熱之后,進一步得出結論:肝膽濕熱證是肝膽病中的中醫證候之一。這就是說,肝膽濕熱證存在于研究涉及的739個樣本中,即有一部分樣本同時包含口苦等12個癥狀或其大多數。為方便討論,我們將這一段文字涉及的幾件事按邏輯順序整理如下:①把類1認為是由“有口苦”等12個癥狀事件組成的集合;②把類1的意義理解為口苦等12個癥狀同時出現,從而把它詮釋為肝膽濕熱證。③在②的基礎上,得出肝膽病中有肝膽濕熱證的結論,即有一部分樣本同時包含“口苦”等12個癥狀或其大多數。
根據第2節的結論,類1是癥狀變量的集合而不是癥狀事件的集合。所以,上述第1步是不正確的。再根據第2節的結論,類1的意義不是口苦等12個癥狀同時出現。實際上,句子“口苦等12個癥狀同時出現”本身是一個病句。顯然,口苦等12癥狀不可能在每一個樣本中都同時出現。那么它們究竟在哪些樣本中出現呢?句子沒有指明,因此意義不清。所以,第2步也是錯誤的。最后,第3步從“口苦等12個癥狀同時出現”這個含義不清的命題推出“有一部分樣本同時包含口苦等12個癥狀或其大多數”。這是不合邏輯的。
上述三步都有問題。那么有沒有可能不通過它們,而直接從類1的含義出發得出“有一部分樣本同時包含口苦等12個癥狀或其大多數”這個結論呢?回答是否定。類1的含義只是說口苦等12個癥狀兩兩以一定頻率在樣本中同時出現。這并不意味12個癥狀同時出現在某些樣本中。在邏輯上,從兩兩雙邊關系是無法推出多邊關系的。打一個比方:青年A與一對好朋友B和C談三角戀愛,A和B常常一起出現,A和C常常一起出現,B和C常常一起出現,但這些并不意味著他們三人會同時出現。
上面的討論以文獻[1]為例。但是,所指出的問題是其它用變量聚類研究證候分布工作共有的。問題的根源在于研究目的與研究方法不匹配。這些工作是要通過分析一組關于西醫某病種的樣本,揭示該病種中中醫證候的分布規律,這其實是揭示該組樣本中中醫證候的分布情況。簡而言之,這就是要揭示樣本某方面的特征和性質。變量聚類方法只考慮變量間的關系,完全不分析樣本的特征和性質。既然如此,它又怎么能揭示樣本中中醫證候的分布規律呢?
4結束語
變量聚類所得到的不是癥狀事件的類,而是癥狀變量的類,其含義不是一些癥狀同時出現于一些患者,從而不能詮釋為證候。變量聚類不分析樣本的特征和性質,從而不可能揭示證候在樣本中的分布規律。
參考文獻:
[1]麻曉慧,王弘午,何裕民,膽病癥狀學聚類研究[J].中國中醫基礎醫學雜志,2000,6(12):59-61.
[2]張堯庭,方開泰.多元統計引論[M].北京:科學出版社,1999.32-35.
- 上一篇:紀念英模人員事跡的發言
- 下一篇:煤炭企業面對經濟危機的措施透析