開票日倒數 倒數
0
23
11
50

前往選舉專區

頂尖期刊上的社科實驗結果也未必可靠,但這不是壞消息

頂尖期刊上的社科實驗結果也未必可靠,但這不是壞消息
Image Credit: Depositphotos

我們想讓你知道的是

一項計劃選取了21項在《自然》及《科學》上發表的社會科學研究,並嘗試重複當中的實驗結果,卻發現有8個結果無法複製,而專家似乎能準確判斷哪些結果可複製。

實驗是科學發展中的重要環節,那麼科學家如何能夠確定實驗結果可靠?這往往需要其他科學家重複實驗,檢視是否得出相同結果。假如實驗設計恰當,在多次類似的實驗後,累積的結果能讓科學界得出共識。

然而實驗偶爾會出現「假陽性」(false postivie)的結果——實際上沒有效應,卻剛好得出正面結果——這並非源於研究人員造假,而是結果按概率分布可能會出現的現象。舉個例子,假如有100個人各擲骰6次,而且骰子沒有做手腳,擲出1至6的結果應各佔約六分之一(即100次左右),不過總會有些人擲出來的點數較多,也有些較少,或許會有人剛好只擲出5和6——若只看單一人的結果,便會認為骰子做過手腳,多看幾個人的結果或多擲幾次才會並非如此。

現時每年有大量研究論文在期刊發表,要知道哪些結果可靠就變得更為重要。其中一種驗證方法,就是重複進行實驗。問題在於,期刊編輯可能較想刊出新發現,而非重複已知研究結果;在發表論文、申請資助的壓力下,研究人員也會傾向發表新結果,多於確認他人的研究。

此外,實驗樣本不足、數據不透明、誤用統計學(例如具爭議的p值)及出版偏誤(publication bias)等問題,亦會增加學術期刊中不準確的研究結果。使用更嚴格的統計工具、要求事先登記實驗以及重複實驗等,都有助令研究結果更可靠。

重複實驗的計劃

實驗是否可以重複得出結果——稱為實驗的「可重複性」(reproducibility)——這個問題,在科學界越來越受關注,甚至有人認為學界正面對不少研究結果無效的「可重複性危機」。除了進行重複實驗以驗證結果外,倡議者亦希望能夠有系統去研究重複實驗,以及增加誘因讓研究人員驗證實驗結果,務求改變學界文化。

近年不乏大型的重複實驗計劃,例如2015年在頂尖期刊《科學》發表論文的「可重複性計劃︰心理學」(The Reproducibility Project: Psychology, RPP)及隨後同樣在該期刊發表論文的「實驗經濟學複製計劃」(the Experimental Economics Replication Project, EERP)。

RPP由270名心理學家合作,嘗試重複過百項曾於頂尖心理學期刊發表過的實驗。結果發現,原本100項實驗中97項結果具統計顯著性,重複實驗中這數字降到36項,如果把兩次實驗的數據合起來則有68項,仍比原本的數字低。EPP複製了18項經濟學實驗,發現有61%實驗有原本研究相符的效應(但強弱未必一樣)。

研究頂尖期刊的研究

本周一(27日)在《自然—人類行為》(Nature Human Behaviour)發表的另一項研究,則檢視了2010年至2015年期間、在頂尖期刊《自然》及《科學》的21項社會科學研究,並按研究主要結果重複進行相關實驗,發現有6成至7成的實驗可重複結果,但效應較弱。另外,研究作者的調查發現,專家能夠準確事先評估實驗結果能否重複,顯示實驗結果能否複製,並非單純隨機因素所致。

這項研究稱為「社會科學複製計劃」(the Social Sciences Replication Project, SSRP),研究作者按照以下三個標準,從2010年至2015年間的《自然》和《科學》中選擇研究︰

  1. 研究測試參與者之間或內部的實驗介入效應;
  2. 研究測試最少一項清晰的假說,而且有統計上顯著的發現;
  3. 實驗在學生或其他容易找到的對象上進行。

最終他們找到21項合符標準的研究,再從中選取最重要的實驗來重複。

Business_Computer_Graphic
Image Credit: Depositphotos

為確保能夠盡量準確複製實驗,研究人員聯絡了這21項研究的作者,以取得相關的實驗資料,包括實驗所用的程式,以及在重複實驗後把報告的草稿傳給他們,讓原作者回應。只有一項研究的原作者未有提供資料及回應(其中一位作者於2013年逝世)以及一項研究的作者不同意報告,大多數作者都認可重複實驗的報告——不過研究作者強調,這不代表原作者同意最終結果或詮釋。

重複實驗的過程共分兩個階段,如果實驗在第一階段已得到跟原本研究一致的結果及75%的效應值(effect size)便告完成,否則會再進行第二階段,進一步收集數據,偵測有否原本研究的50%效應值。複製實驗的樣本數量較原本的研究多,在第一階段平均為原本實驗的3倍,第二階段則為6倍。

21項複製實驗當中,有13項(62%)的效應跟原本研究一致,另外8項(38%)的結果無法複製。成功複製結果的13項實驗中,平均的效應值為原本實驗的74.5%;至於8項無法複製結果的實驗,其平均效應值則為原本實驗的0.3%。作者特別指出,即使只看可重複的實驗,其效應值亦比原本的發現為弱。

假如結合重複實驗及原本實驗的數據,則總共有16項(76%)研究的效應跟原本研究一致,而且這樣計算亦假如原本的研究沒有偏差,高估了相關效應。

學界更接受重複實驗

領導研究的心理學家及開放科學中心執行總監路錫克(Brian Nosek)不認為這個結果反映學界有「可重複性危機」,他說︰「我不認為這是個危機,而是改革。社會科學界的研究嚴謹性及透明度急劇增加,我們正處於這個改變之中。」

2015年重複心理學實驗的RPP同樣由路錫克領導,他指過往嘗試重複實驗會招來敵意,但今次獲得原作者合作。他強調重複實驗並非要指責誰是差劣的研究員,又指學界的接受程度在過去5年完全改變︰「2012年時重複實驗感覺上像是攻擊,因為那時在科學界非常罕見。現在這已變得正常。」