社會統(tǒng)計悖論與轉(zhuǎn)變問題

時間:2022-09-09 05:20:40

導(dǎo)語:社會統(tǒng)計悖論與轉(zhuǎn)變問題一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

社會統(tǒng)計悖論與轉(zhuǎn)變問題

0引言

社會統(tǒng)計分析的數(shù)據(jù)絕大數(shù)是分類意義上的。它們要么是定性的定類、定序數(shù)據(jù),要么是定量的離散數(shù)據(jù)[1],并不具備嚴(yán)格意義上的“+、-、×、÷”等數(shù)學(xué)運算特性[2]。社會研究對象的這一“分類”特征,使得列聯(lián)表成為社會統(tǒng)計分析中應(yīng)用最為廣泛的首選統(tǒng)計工具之一。因為列聯(lián)表是非參數(shù)的或僅要求很弱的參數(shù)(分布)假定。但在列聯(lián)表分析中,如何解釋隱現(xiàn)其中的辛普森悖論一直是一個重要問題。此外,由于分類數(shù)據(jù)的非線性特征,回歸函數(shù)不可能是線性的,需要尋找一個鏈接函數(shù),將分類變量的期望值變換成自變量的一個線性函數(shù)。然而,在實際應(yīng)用中,logit變換與probit變換的內(nèi)在差異與背后假定問題常為人們所忽視,進(jìn)而影響了參數(shù)解釋。

1辛普森悖論問題

辛普森悖論最早于1899年由卡爾•皮爾森(KarlPear-son)提出,但一直到1951年E.H.辛普森才正式描述并解釋這一現(xiàn)象,后來就以他的名字命名該悖論。關(guān)于辛普森悖論,國內(nèi)學(xué)者關(guān)注不多,只有李思一(1984)、王軼豪(1986)、倪加勛(1992)、吳素萍(2000)、耿直(2000)、史希來(2006)、王健(2008)等人作過介紹性研究。辛普森悖論是指,在分組比較中都占優(yōu)勢的一方,在總體評價中卻并不占優(yōu)勢。我們先來看一個源自真實生活的案例。1979年初,《美國歷史畫報》雜志對讀者類型和獲得期刊的方式進(jìn)行了統(tǒng)計[3]。見表1。

從表1可以看出,五種訂閱方式中,老訂戶1月份的續(xù)訂率要高于2月份,但合計后總的續(xù)訂率卻要低于2月份。除了上述案例外,還有其他很多真實的數(shù)據(jù)表現(xiàn)出了辛普森悖論現(xiàn)象,如Bickel等(1975),Wagner(1982),Neufeld(1995)。總之,辛普森悖論不是虛幻的,而是客觀存在的。問題是如何解釋辛普森悖論的產(chǎn)生原因。由于統(tǒng)計的基礎(chǔ)在于概率,于是人們就從概率論加以解釋。辛普森悖論可定義為以下三種情況同時發(fā)生:(1)P(I|A,B)>P(I|A,B'''');(2)P(I|A'''',B)>P(I|A''''B'''');(3)P(I|B)<P(I|B'''')式(1)表示A在B下發(fā)生的概率大于A在B’下發(fā)生的概率。式(2)表示A’在B下發(fā)生的概率大于A在B’下發(fā)生的概率。式(3)表示B發(fā)生的概率小于B’發(fā)生的概率。可以證明,如果保持試驗的結(jié)構(gòu)相同,即P(A|B)=P(A|B'''')成立時,就可以避免辛普森悖論的出現(xiàn)(證明參見倪加勛,1992)。

雖然從概率角度可以詮釋辛普森悖論問題,但在筆者看來,這種詮釋具有柏拉圖“理念論”的色彩。因為這里遵從的是概率的頻率定義(列聯(lián)表中表征的是頻率),即P(E)=limN→∞f(E)=limN→∞nN事實上,由于試驗或觀測次數(shù)N為∞是做不到的,因此,列聯(lián)表中的相對頻率只能說是對概率的一種柏拉圖意義上的“理念”摹本,近似到何種程度仍然是有疑問的。如果從“現(xiàn)象”出發(fā),就會發(fā)現(xiàn):辛普森悖論與其說是悖論,不如說反映了社會統(tǒng)計分析對象的獨特特征,即分類數(shù)據(jù)的非線性特征。正是因為非線性,使得列聯(lián)表在不同的結(jié)構(gòu)維度,表征了不可還原的不同統(tǒng)計信息。在上例中,由于將原始數(shù)據(jù)從三維結(jié)構(gòu)壓縮成二維結(jié)構(gòu),自然就失去了另一維的信息,分析結(jié)構(gòu)的不一致恰恰是不同維度統(tǒng)計信息的反映。因此,列聯(lián)表中的辛普森悖論實質(zhì)上是一個將高維空間降到低維空間的產(chǎn)物[4]。

事實上,這種由于降維而丟失信息在其他統(tǒng)計分析方法中也會發(fā)生。例如,因子分析,雖然在理論上可以有無數(shù)個因子載荷矩陣,且每一個因子載荷矩陣對于一組潛在因子。但只有通過變換得出或組合出更合理、更便于解釋的潛在因子時,因子分析才可以說是成功的。整個分析過程實際上是一個歐氏空間降維和坐標(biāo)變換(相當(dāng)于坐標(biāo)軸的剛性旋轉(zhuǎn))的過程;又如,聚類分析,實際上是將分布在歐氏空間的觀測數(shù)據(jù),投影到超橢球的方差最大方向和方差次大方向所形成的二維空間的平面上,然后按該平面上投影點之間的距離來直觀地劃分類別(相當(dāng)于對應(yīng)分析)。這也是一個歐氏空間的坐標(biāo)變換和降維過程。總之,列聯(lián)表在“高保真”地表征分類數(shù)據(jù)信息的同時,由于分類數(shù)據(jù)的非線性特征,在降維的過程中自然而然會帶來“辛普森悖論”問題。“辛普森悖論”的實質(zhì)是“結(jié)構(gòu)性”的,是不同列聯(lián)表結(jié)構(gòu)維度的統(tǒng)計信息差異。

2變換問題

列聯(lián)表在本質(zhì)上是對稱的。當(dāng)社會統(tǒng)計分析的范圍拓展到不對稱的回歸分析時,考慮到因變量的分類屬性(categori-calnature),回歸函數(shù)不可能是線性的,為此需要尋找一個鏈接函數(shù)(linkfunctions),將分類變量的期望值變換成自變量的一個線性函數(shù)。在這里,有個常見的問題,即人們常常對鏈接函數(shù)logit與probit的內(nèi)在差異與背后假定不做辨析,進(jìn)而忽視這些差異與假定對于社會統(tǒng)計分析的參數(shù)解釋所具有的重要意義。在回歸模型中納入分類變量作為自變量并不存在任何特別的難處,因為它主要涉及建立與自變量不同類別相對應(yīng)的虛擬變量,所有已知回歸模型的性質(zhì)都可以直接推廣到方差和協(xié)方差分析模型。但對于因變量是分類變量時,情況就徹底改變了,線性回歸的許多知識都無法簡單地加以運用。

例如,對一個一二分因變量y,它的取值在[0,1]之間,一個自變量x,可以任意取值。我們知道,一個y對x的線性回歸意味著,x取任何值,預(yù)測線(predictedline)將不可避免地落在[0,1]之外,顯然這是不合理的。為此,我們需要尋找一個鏈接函數(shù)(linkfunctions),將分類變量的期望值變換成自變量的一個線性函數(shù)。logit變換和probit變換就是其中最為典型的兩種變換。logit和probit變換能夠在不對參數(shù)加以限定的情況下,其預(yù)測值被限定在[0,1]范圍內(nèi)。其模型的起源可追溯到心理物理學(xué)[5],但logit和probit模型的現(xiàn)展主要是生物鑒定領(lǐng)域的貢獻(xiàn)[6]。先說logit變換。一般來說,logit變換可以解釋為成功對失敗之發(fā)生比率的對數(shù)。成功概率P的logit變換可以表示為:logit(pi)=log(pi1-pi)Probit變換是logit變換的一個替代選擇。用數(shù)學(xué)公式表示為:probit(pi)=Φ-1(pi)=Φ-1(z-∞乙1姨2πe-t22dt)從上式可以看出,logit和probit兩種分布函數(shù)的公式很相似,實際上,函數(shù)值相差也并不大,且都繞著p=0.5對稱(圖1)。無論是probit變換,還是logit變換,在社會統(tǒng)計分析中并沒有實質(zhì)上的理由確認(rèn)哪一種更優(yōu)。一些研究者基于中心極限定理往往傾向于probit變換,但在實際操作中,logit分布因概率分布和密度函數(shù)的簡單性而更受歡迎。

需要進(jìn)一步指出的是,區(qū)分兩種變換的內(nèi)在差異與背后假定是相當(dāng)重要的:首先,就分布來說,logit函數(shù)假設(shè)隨機(jī)變量服從邏輯概率分布,而probit函數(shù)則假設(shè)隨機(jī)變量服從正態(tài)分布。標(biāo)準(zhǔn)邏輯概率分布和標(biāo)準(zhǔn)正態(tài)分布的均值都為0,但方差不同,前者的方差為π2/3,后者的方差為0。這一差別進(jìn)一步體現(xiàn)為logit模型的系數(shù)比可比的probit系數(shù)年要大。從理論上來講,一個probit模型系數(shù)大約乘以1.81就應(yīng)當(dāng)?shù)玫揭粋€接近于logit系數(shù)的值。同理,logit估計值乘上大約0.55就可以得到一個近似的probit估計值。在實際操作中,有研究者建議以1.61和0.625作為乘數(shù)以得到更接近的近似值[7]。其次,無論logit變換還是probit變換在0.2~0.8之間基本呈現(xiàn)線性。在這個范圍之外,兩個函數(shù)都是高度非線性的。這意味著,如果P被作為一個連續(xù)解釋變量(x)的函數(shù)進(jìn)行統(tǒng)計建模,x對p的影響就不是常數(shù),而會隨x的變化而變化。例如,我們發(fā)現(xiàn)當(dāng)probit(pi)=logit(pi)=β0+β1xi=0時,x變化所帶來的變化比probit(pi)<0,logit(pi)<0或probit(pi)>0,logit(pi)>0時要更大。這一點在對logit和probit系數(shù)進(jìn)行解釋時要特別注意其特定的含義。

3結(jié)語

社會統(tǒng)計分析就其對象的數(shù)學(xué)形式來說與其他統(tǒng)計分析并無差異,都可用統(tǒng)一的矩陣表示:但由于社會統(tǒng)計分析的數(shù)據(jù)絕大數(shù)是分類意義上的,使得列聯(lián)表分析、尋找鏈接函數(shù)成為突出的兩大應(yīng)用性問題。本文探討了隱現(xiàn)于列聯(lián)表分析中辛普森悖論問題,分析了回歸分析中l(wèi)ogit變換與probit變換的內(nèi)在差異與相關(guān)假定。認(rèn)為,辛普森悖論誠然可以通過全概公式加以解釋,但實質(zhì)上是歐氏空間的降維問題,是列聯(lián)表不同維度數(shù)據(jù)結(jié)構(gòu)的統(tǒng)計信息差異性反映;無論logit與probit函數(shù)只有在0.2~0.8之間才基本呈現(xiàn)線性,在這個范圍之外,兩個函數(shù)都是高度非線性的。上述兩個應(yīng)用性問題無疑對于社會統(tǒng)計分析的參數(shù)解釋有著特殊的意義。