我們與「顯著」的距離:P值是判斷研究成敗的過時指標嗎?

我們與「顯著」的距離:P值是判斷研究成敗的過時指標嗎?
圖片來源:https://esajournals.onlinelibrary.wiley.com/doi/pdf/10.1890/13-1402.1#accessDenialLayout
我們想讓你知道的是

如果讀者讀完這篇文章,準備要做統計分析寫報告,開始擔心自己是不是用錯誤的觀念與方法操作統計工具,那麼這篇文章就起了作用。

唸給你聽
powered by Cyberon

統計檢定是不是顯著,或者p值是不是小到可以接受的水準,是多數自然科學與社會科學的學術工作者們,分析資料判斷能否更新知識的工具。也是開發機器學習模型的數據分析人員,用來判斷收集到的資料,能不能支持想驗證的假設之常見指標。自從重要奠基者Roland Fisher、Jerzy Neyman與Egon Pearson分別發表p值以及推論犯錯率的重要概念與數學推導(Ref. 12),二次世界大戰後許多科學研究者,習慣用少於0.05的p值,推論獲得或發現預期的結果。統計推論的使用策略發展到21世紀的前10年,每個運用統計的科學領域已經累積不少批判與反省統計推論與p值的意見。

2005年統計學者John Ioannidis發表批判生物醫學領域充斥偽陽性結果的經典論文(Ref. 3),到2010年起心理學界密集爆發學術不端事件,以及高影響力期刊接受無法再現的爭議研究事件(Ref. 4),讓科學家誤用p值的問題浮現。除了各領域學者集結推出各種改良方案與行動(Ref. 5、6),2016年美國統計學會(ASA)理事會發表聲明(Ref. 7),提出6點建議給需要運用統計推論做出結論的科學家們,如何正確使用與解讀p值。

ASA的建議公開的時候,台灣也有不少學者關注後續的影響。美國德州大學奧斯汀分校的林澤民教授,於個人部落格分享當時的在台演講「p值的陷阱」(Ref. 8),獲得華文知識圈廣大迴響。到了2019年3月,2016年代表ASA撰寫聲明的Ronald Wasserstein,將2016年參與ASA主辦的主題研討會學者發表的評論與建議,一共43篇論文集結於ASA專刊(Ref. 9)。參與其中2篇專文的3位學者Valentin Amrhein、Sander Greenland與Blake McShane,於專刊發表同日,在自然期刊發表主張,響應ASA的專刊主題(Ref. 10)。3位作者提到完成這份主張的初稿時,曾將預印本公佈於網路並收集連署,一星期內就獲得來自800多位統計學及自然與社會科學領域的學者響應。因此自然期刊公上網後,也吸引全球各地關心統計推論誤用問題人士的注目。

最初看到Amrhein等人的主張,我就留意過去幾年投入提昇心理學研究品質的學者,一面倒地批判他們的建議做法:放棄p值的判斷閾限,提倡運用信賴區間評估實際結果與預期結果的相容性。主要的批判意見是這些學者提出的建議,都是指點科學家們要做什麼,或者不要做什麼,而非討論為什麼該這麼做或不該這麼做。我看了幾天各方意見交流,也有自己的看法時,就收到林澤民教授的私訊,詢問有沒有興趣寫篇科普文章,向有興趣的讀者說明這幾年各界批評統計推論濫用的聲浪,帶來什麼訊息。

當下我決定做個非正式調查,了解一下林教授「p值的陷阱」發佈3年後,華文圈的統計使用者正確了解p值人們有多少,還有探討誤解存在的原因。非正式的調查結果促成我寫作這篇文章的主要動機。2019年4月1日,我在個人臉書發佈下圖的動態訊息,建議第一次看到這則訊息的朋友,請自己先想想看,以你現在所知選擇你認為正確的答案:

p值是什麼?

回首林教授「p值的陷阱」,林教授的解釋如下:

p值是什麼?我想在座有很多專家比我都懂,但是也有一些同學在場,所以還是稍微解釋一下。p值是由Ronald Fisher在1920年代發展出來的,已將近100年。p值檢定最開始,是檢定在一個model之下,實驗出來的data跟model到底吻合不吻合。這個被檢定的model,我們把它叫做虛無假設(null hypothesis),一般情況下,這個被檢定的model,是假設實驗並無系統性效應的,即效應是零,或是隨機狀態。在這個虛無假設之下,得到一個統計值,然後要算獲得這麼大(或這麼小)的統計值的機率有多少,這個機率就是p值。

ASA的2016年聲明中,有關p值的解釋也是短短的一句話:

Informally, a p-value is the probability under a specified statistical model that a statistical summary of the data (e.g., the sample mean difference between two compared groups) would be equal to or more extreme than its observed value.

看過以上解釋,有仔細思考的讀者應該會把想選擇的答案縮小到3與4兩個選項。但是不太熟悉機率的讀者應該會困惑,p值是個什麼樣的機率?林教授說的「在這個虛無假設之下,得到一個統計值,然後要算獲得這麼大(或這麼小)的統計值的機率有多少」,以及ASA的解釋「the probability under a specified statistical model that a statistical summary of the data…」。兩種解釋都說明p值是一種條件機率。

借用Deborah Mayo寫的書《Statistical inference as severe testing: how to get beyond the statistics wars》(Ref. 11)所記的公式,告訴我們p值是這樣的條件機率:

Pr(X≥x0∣H0)=p(x0

公式裡的H0,代表虛無假設的統計模型(statistical model),X代表實際資料的隨機變數,x0代表虛無假設統計模型的隨機變數,一般來說X與x0分別指實際資料的平均值與統計模型估計的期望值(Ref. 12)。X與x0之間的差異越小,表示實際資料越符合虛無假設統計模型,得到的p值會越大,反之實際資料越不符合虛無假設統計模型,p值會越小。實際資料符合虛無假設統計模型的機率越小,表示實際資料有可能符合其他統計模型。虛無假設統計模型通常代表沒有效果的預期結果,所以科學家通常希望得到的p值越小越好。

為何許多人會誤解p值

這次非正式調查列出的選項,最正確的是4,選項5要加上前提「具備高考驗力的條件時」才是正確。但是我發現許多只選一項的網友選擇3,部分網友表示3、4都有可能,這些網友身份從老師到學生都有,公佈答案時沒有人只選擇4。選項3所指是另一種條件機率:

Pr(H0∣X≥x0)=p(H0

這種條件機率的白話解釋是「當得到一個統計值,虛無假設統計模型存在的機率」,這種條件機率又被稱為事後機率(posterior probability),了解貝氏定理可知事後機率通常無法直接估計,但可運用已知的事前機率(prior probability)與似然性(likelihood)逼近之。p值就是似然性的一種估計方法。

中英文文法與數學公式文法有許多相反的地方,其中之一就是像林教授及ASA的白話解釋用「之下」與「under」描述虛無假設前提。不熟悉條件機率的讀者很容易以為H0是資料抽樣分佈的期望值,更別說對機率一知半解,卻常常要分析資料的科學家們。科學家以錯誤的理解使用統計推論,長年累月延續加上世代傳承,當然會產生許多不良研究結果,以及有損學術倫理的研究操作習慣。

過嚴的判斷門檻

除了許多人會誤解p值的真面目,更多被批判的誤用是將p值用於二分判斷,也就是以統計顯著與否推測有沒有發現預期的結果。前述的公式解說告訴我們p值是顯示實際資料與預期的統計模型之間的差異程度,是高是低應該視研究問題的性質而定。學過統計的朋友都聽過的0.05就是一種最多科學領域依賴的判斷門檻。

然而設定判斷門檻這種作為,其實已經有違科學研究的共同宗旨:揭露不確定現象背後的規律。當一項研究主題僅憑幾次結果的p值未達門檻,就當是沒有價值的研究主題,有可能造成低估的錯誤。Amrhein等3位學者在自然期刊評論特別批判這種狀況,他們的舉例說明這個主題的所有結果若是都顯示一致的平均值,只以幾個p值沒有達到門檻,就決定放棄研究這個主題,長遠影響是有潛力的科學題目將無法開花結果。

過鬆的判斷門檻

相對於被低估的研究結果,另一個被批判的誤用是高估研究結果的真實性。這種誤用通常出現於p值僅剛好通過門檻,而且受人注目的原創研究。例如以「權力姿勢效應」而聲名大噪的社會心理學者Amy Cuddy,研究發表後由她本人與追隨者宣傳的其中一種效應,擺出擴張型姿勢會提高冒險動機的測量指標,在2010年發表的報告裡,實際的p值是0.04913。由於當時期刊並不要求寫出詳細的p值,報告只寫p < .05。若非之後其他學者的批評與無法再現的實驗結果,Amy Cuddy到現在可能還是將這項指標列為理論要素。

過去許多心理學研究以剛好通過門檻的研究結果,當成支持理論的證據,累積許多難以再現的研究。對於歐美心理學界來說,再現危機是2010年代心理學的時代特徵。為了扭轉因高估p值所帶來的惡果,有學者提出偵測異常p值報告的方法14,也有許多領域的學者串聯倡議提高判斷門檻(Ref. 15)。

如何表達不確定性?

相對於提高判斷門檻的倡議,還有兩種相反的意見與措施,提供科學家改善使用統計的做法。第一種是由專業學術期刊主動出手,要求投稿學者不得在報告裡使用p值或統計顯著與否呈現研究結果,例如社會心理學的Basic and Applied Social Psychology、政治學的Political Analysis。第二種是Amrhein等3位學者在自然期刊評論主張,以改名為「可容性區間」(compatibility interval)(Ref. 16)的信賴區間,取代p值及顯著性等二分判斷相關詞彙。參與這次ASA專刊的許多學者也是這類主張提倡者,例如心理學界的Calin-Jageman與Cumming(Ref. 17)。

至此提到的三種做法,提倡者的目的都是減少科學家過度肯定研究結果,降低無法再現的劣質研究充斥科學文獻的比例。但是用信賴區間取代p值的判斷門檻是好方法嗎?

在此借用密西根大學資訊科學系教授Matthew Kay公開演講簡報資料,解說信賴區間是什麼(Ref. 18)。這一段之後的示意圖是簡報圖片的重製,呈現事前機率(Prior)、似然性(Likelihood)、以及事後機率(Posterior)3種機率函數在資料空間的存在。其中似然性的機率函數相當於假設檢定之中的對立假設統計模型(H1),事前機率的期望值等於虛無假設統計模型的預測。兩個統計模型差異越大,得到的p值越小,信賴區間(confidence interval,圖中橘色線條)也越不可能覆蓋虛無假設的期望值。

2
圖片來源:作者提供

上圖也呈現事後機率函數以及確信區間(credibility interval,圖中紫色線條),可見兩種區間是不同的估計結果。稍早提到事後機率是根據實際資料,統計模型確實存在的條件機率,所以比起信賴區間,確信區間更適合判斷實際資料相容理論預測的程度。然而許多情況缺乏事前機率的資訊,研究人員只能估計信賴區間。如果讀者想要更了解3種機率函數與2種區間的差別,可以點擊這個連結,運用我製作的中文版shiny互動網頁探索。

步步為營:正確使用統計方法

如果讀者讀完這篇文章,準備要做統計分析寫報告,開始擔心自己是不是用錯誤的觀念與方法操作統計工具,那麼這篇文章就起了作用。這裡談到2種有損科學研究品質的誤用狀況,以及3種改進的主張(提高判斷門、檻放棄p值、用信賴區間取代判斷門檻)。就像統計推論的誤用者以過度簡化的「二分門檻」對待有連續性資訊的p值一樣,這些主張是以過度簡化的思維,以及缺乏考慮各領域科學研究複雜度所得到的結論。這些主張的提倡者,都過度相信只要更換判斷標準或方法,科學家與統計使用者就不會犯相同的錯誤。

我在2017年曾參與荷蘭心理學者Daniel Lakens發起的集體寫作,回應提高判斷門檻的主張,並提出改進科學家設定統計方法的構想(Ref. 20)。參與寫作的Stephen Benning在評論出版後,於個人部落格詳述實踐我們主張的具體作法(Ref. 21)。作法是在研究開始之前,做好六道準備:

  1. 想清楚這次研究需不需要判斷門檻
  2. 確定研究目標的性質(Benning列出4種範例)
  3. 找出研究目標的最小效果量(minimal/smallest effect size of interest)
  4. 設定最適判斷門檻
  5. 設定最適考驗力
  6. 如果有多重比較,慎選判斷策略

六道準備步驟對於許多從事研究的讀者來說,最難的應該是找出最小效果量。關於此點,Lakens與他的博士生正在開發工具與教學材料,提供各領域的科學家運用(Ref. 22、23)。我們相信以妥善的統計規劃完成的研究,不論研究報告有沒有出現p值,有沒有表達顯著與否,都能讓讀者掌握研究結論的確定與不確定訊息。

參考資料

Daniel Laken(Ref. 24)提供如何改良統計與研究方法教育的建議,回應ASA專刊的主軸,有興趣知道如何改良統計教育的朋友可找來一讀。Deborah Mayo耕耘統計哲學研究數10年,近期著作25爬梳現代科學家誤用統計推論的歷史脈絡,ASA專刊主編Ronald Wasserstein也在序文首段推薦,想深入探討誤解與誤用問題由來的讀者,可以找來詳讀。

  1. Fisher, R. A. (1934). Statistical Methods for Research Workers. Edinburgh: Oliver and Boyd. (First published in 1925.)
  2. Neyman, J., & Pearson, E. S. (1933). On the Problem of the Most Efficient Tests of Statistical Hypotheses. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character, 231, 289–337. Retrieved from JSTOR.
  3. Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. PLOS Med, 2(8), e124. https://doi.org/10.1371/journal.pmed.0020124
  4. Chambers, C. (2017). The Seven Deadly Sins of Psychology: A Manifesto for Reforming the Culture of Scientific Practice. Princeton, NJ: Princeton University Press.
  5. Simmons, J. P., & Simonsohn, U. (2017). Power Posing: P-Curving the Evidence. Psychological Science, 28(5), 687–693. doi: 10.1177/0956797616658563
  6. Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., … Johnson, V. E. (2017). Redefine statistical significance. Nature Human Behaviour, 1. doi: 10.1038/s41562-017-0189-z
  7. Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133. https://doi.org/10.1080/00031305.2016.1154108
  8. http://blog.udn.com/nilnimest/84404190
  9. Wasserstein, R. L., Schirm, A. L., & Lazar, N. A. (2019). Moving to a World Beyond “p < 0.05.” The American Statistician, 73(sup1), 1–19. https://doi.org/10.1080/00031305.2019.1583913
  10. Amrhein, V., Greenland, S., & McShane, B. (2019). Scientists rise up against statistical significance. Nature, 567(7748), 305–307. https://doi.org/10.1038/d41586-019-00857-9
  11. Mayo, D. G. (2018). Statistical inference as severe testing: how to get beyond the statistics wars. Retrieved from https://doi.org/10.1017/9781107286184
  12. 本文的p值與事後機率之條件機率公式為方便解說的簡化版,Fisher所提出的完整公式請Mayo (2018)之單元3.2。
  13. Carney, D. R., Cuddy, A. J. C., & Yap, A. J. (2010). Power Posing: Brief Nonverbal Displays Affect Neuroendocrine Levels and Risk Tolerance. Psychological Science, 21(10), 1363–1368. doi: 10.1177/0956797610383437↩
  14. Simmons, J. P., & Simonsohn, U. (2017). Power Posing: P-Curving the Evidence. Psychological Science, 28(5), 687–693. doi: 10.1177/0956797616658563↩
  15. Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., … Johnson, V. E. (2017). Redefine statistical significance. Nature Human Behaviour, 1. doi: 10.1038/s41562-017-0189-z
  16. 「可容性區間」的中文翻譯,感謝國立中正大學哲學系陳瑞麟教授建議。
  17. Calin-Jageman, R. J., & Cumming, G. (2019). The New Statistics for Better Science: Ask How Much, How Uncertain, and What Else Is Known. The American Statistician, 73(sup1), 271–280. https://doi.org/10.1080/00031305.2018.1518266
  18. http://www.mjskay.com/presentations/openvisconf2018-bayes-uncertainty-2.pdf
  19. https://scchen.shinyapps.io/shiny-bayes-chi/
  20. Lakens, D., Adolfi, F. G., Albers, C. J., Anvari, F., Apps, M. A. J., Argamon, S. E., … Zwaan, R. A. (2018). Justify your alpha. Nature Human Behaviour, 2(3), 168–171. https://doi.org/10.1038/s41562-018-0311-x
  21. Benning, S. D. (2018, March 1). How to justify your alpha: step by step – Stephen D. Benning. Retrieved March 1, 2018, from https://sbenning.faculty.unlv.edu/2018/03/01/how-to-justify-your-alpha-step-by-step/
  22. Lakens, D., Scheel, A. M., & Isager, P. M. (2018). Equivalence Testing for Psychological Research: A Tutorial. Advances in Methods and Practices in Psychological Science, 1(2), 259–269. https://doi.org/10.1177/2515245918770963
  23. Anvari, F., & Lakens, D. (n.d.). Using Anchor-Based Methods to Determine the Smallest Effect Size of Interest. https://doi.org/10.31234/osf.io/syp5a
  24. Lakens, D. (2019). The practical alternative to the p-value is the correctly used p-value [Preprint]. doi: 10.31234/osf.io/shm8v
  25. Mayo, D. G. (2018). Statistical inference as severe testing: how to get beyond the statistics wars. Retrieved from https://doi.org/10.1017/9781107286184
延伸閱讀

本文經陳紹慶授權轉載,原文刊載於此

責任編輯:朱家儀
核稿編輯:翁世航

或許你會想看
更多『評論』文章 更多『科學』文章 更多『陳紹慶』文章
Loader