維骨力問題就是它的功效一直非常爭議,自從2000年以來,全世界的醫藥學界對葡萄糖胺(維骨力的成份)的功效多所質疑,其中尤其以2006年發表於權威的新英格蘭醫學誌的一篇研究論文Glucosamine, Chondroitin Sulfate, and the Two in Combination for Painful Knee Osteoarthritis. New England Journal of Medicine, 2006; 354:795-808.,直指葡萄糖胺對關節炎患者沒有降低疼痛的能力。
為什麼要談論p值的問題?因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是p值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman寫了篇文章,叫作The Statistical Crisis in Science──「科學的統計學危機」,說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。
投影片上這些論點,大部分是說我們在傳統統計檢定的執行上,對p值有各種誤解跟誤用。現在很多人談到「p值的危險」、「p值的陷阱」、「p值的誤用」、還有「p值的誤解」。甚至有些學術期刊,也開始改變他們的編輯政策。像這本叫作Basic and Applied Social Psychology的心理學期刊,已經決定以後文章都不能使用p值,大家能夠想像嗎?我們作計量研究,都是用p值,各位一直用,在學界用了將近一百年,現在卻說不能用。甚至有些文章,說從前根據p值檢定做出來的研究成果都是錯的,有人更宣告p值已經死了。所以這是一個很嚴重的問題。
有關p值的討論,其實並非由政治學門,而是從生命科學、例如醫學等領域所產生的。ASA聲明的第四點說:正確的統計推論,必須要「full reporting and transparency」,這是什麼意思呢?這是說:不但要報告p值顯著的研究結果,也要報告p值不顯著的研究結果。但傳統方法最大的問題是:研究結果不顯著,通通都沒有報告。在英文有個詞叫cherry-picking,摘櫻桃。什麼叫摘櫻桃?摘水果,水果熟的才摘,把熟的水果送到水果攤上,大家在水果攤上看到的水果,都是漂亮的水果,其實有很多糟糕的水果都不見了。
我們在統計上也是,大家看到的都是顯著的結果,不顯著的結果沒有人看到。可是在過程中,研究者因為結果必須顯著,期刊才會刊登、新藥才會被批准,所以盡量想要擠出顯著的結果,這之中會出現一個很重大的問題:如果我們作了20個研究,這20個研究裡面,虛無假設都是對的,單獨的研究結果應該是不顯著。可是當我們作了20個統計檢定時,最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在0.05,可是20個裡面最少有一個顯著的,或然率就不是0.05,大概是0.64。如果就報告這個顯著結果,這就是cherry-picking。ASA給的建議是:實驗者必須要full reporting and transparency,就是一個研究假如作了20個模型的檢定,最好20個模型通通報告,不能只報告顯著的模型。ASA這個聲明是今天要討論的主要內容。
為什麼說p值很小,就不接受虛無假設?我個人的猜想,這是依據命題邏輯中,以否定後件來否定前件的推論,拉丁文稱作modus tollens,意思是以否定來否定的方法,也就是從「若P則Q」和「非Q」導出「非P」的推論,這相信大家都知道。p值檢定的邏輯是一種有或然性的modus tollens,是probabilistic modus tollens。「若H0為真,則p值檢定顯著的機率很小,只有0.05」,現在p值檢定顯著了,所以我們否定H0。
下面這個表是大家都熟悉的。(圖二)我們可以用這個表來呈現有關虛無假設是對或者不對,是被拒絕或者被接受的四種可能性,其中兩種是作出錯誤統計推論的情況。第一個情況,虛無假設是對的,但統計檢定是顯著的,因此虛無假設被推翻了。這種情況叫做Type I error,我們保留了α=0.05的機率容許它存在。
第二個情況,如果虛無假設是錯誤的,但統計檢定不顯著,所以它沒有被推翻,這個情況叫做Type II error。Type II error剛學統計的同學可能不太了解,因為我們通常都不會很清楚地去計算它的機率──所謂β。這個β跟α不一樣,不是你可以用相約成俗的方法來訂定,而是會受到若干因素的影響。簡單來講,在一定的顯著水準α之下,β跟樣本大小有關係;樣本太小的話,β會比較大。另外它跟實驗效應的大小也有關係,如果效應很小的話,β也會比較大。
換句話說,如果虛無假設跟研究假設的距離比較小的話,β會比較大。可是一般人不會去計算β,因為還沒做實驗之前,其實也不知道實驗的效應有多少。儘管如此,β是可以計算的。算出來了,則我們拒絕錯誤虛無假設,而作出正確統計推論的機率是1-β,這1-β我們就把它叫做「檢定的強度」──the power of the test──我待會兒會用到這個名詞。依此定義,β越小的話,power就越大。用醫學的術語來說,α,Type I error的機率,就是偽陽性的機率,而β,Type II error的機率,就是偽陰性的機率。
圖片來源:作者提供圖二
我們可以開始討論:傳統用p值來作統計檢定方式,為什麼有問題?剛剛ASA的聲明說:p值do not measure the probability that the studied hypothesis is true。p值告訴你:如果虛無假設是對的,你「觀察到資料」的機率有多少,但它並沒有告訴你「虛無假設是對的」的機率有多少,或「研究假設是對的」的機率有多少。這是很不一樣的:前者是data的機率,後者是model的機率。
再來我們講到「摘櫻桃」問題,如同剛剛所提到,研究假設的先驗機率是如此重要,我們要如何去判定?要怎麼知道它是多少?我們必須要做文獻的分析、要建構我們的理論,在這種情況之下,會出現摘櫻桃的問題。這裡就是要呈現給大家看,譬如我們作20個統計檢定,從作第一個開始,本來有一個model,但是p值不顯著,我們就改一下model,加一個變數、減一個變數,或是把一個變數平方,或是把一個變數取log,或者把樣本除去一些,增加一些,這樣慢慢去試驗,最後終於得到一個顯著的結果了!但這裡告訴你,做了20個這樣的檢定,我們以為每一個檢定的Type I error控制在0.05,可是20個裡面最少有一個顯著的或然率是多少?是0.64。(圖八)
如果一定要用幾顆星的話,大家就不要再用α=0.10了;p<0.10就不要再加星星了。我知道AJPS(American Journal of Political Science)已經不接受α=0.10這個顯著水準的統計檢定了;不管是單尾檢定或是雙尾檢定,用α=0.10已經不被接受了。0.05還可以,最好能用0.01,審稿人對你較難有所批評。