兩年前一篇網誌 令研究飲食的「搞笑諾貝爾獎」得主名譽掃地

兩年前一篇網誌 令研究飲食的「搞笑諾貝爾獎」得主名譽掃地
Photo Credit: David Duprey / AP Photo / 達志影像

我們想讓你知道的是

以研究飲食行為著稱的溫成克,兩年前寫了一篇網誌,講述他指導一位博士生的經歷,但為他帶來始料不及的後果。

2016年11月21日,前康奈爾大學教授溫成克(Brian Wansink)在個人網站貼出一篇題為〈從不說「不」的研究生〉的文章,講述一位來自土耳其的博士生希望到訪他領導的「食品及品牌實驗室」(Cornell Food and Brand Lab),擔任半年無薪的訪問學人。

文章主旨是這位博士生努力把握研究機會,未有拒絕溫成克的建議,協助重新分析一份看來沒有預期結果的數據,最終成功發表5篇論文。

本來溫成克想說一個成功勵志故事,但他當時應該沒有想過,這篇網誌文章會使他的學術生涯面臨終結。

研究飲食行為的教授

讀商業出身的溫成克於1990年取得史丹佛商學院(Stanford Graduate School of Business)的市場營銷博士學位,主要研究環境如何塑造及改變人們的進食行為。他曾任美國農業部營養政策與推廣中心執行總監,現為康奈爾大學的市場營銷教授。

溫成克的多項研究結果獲媒體報道,例如使用更小的碟有助減少進食量、把零食放到更難取的地方可以減重、肚餓時購物會買下更多不健康食物等等。不難想像,很多人都想知道如何透過一些環境上的小改變,便能夠扭轉飲食習慣,這類有趣的研究自然引起媒體注意。

krtphotoslive169213
Photo Credit: BOB FILA / KRT / Newscom / 達志影像

他發表過的研究當中,最著名的相信是「無底碗」實驗。研究人員製作了一隻會自動按照參與者飲用量加湯的碗,並讓部分參與者用來喝湯。研究團隊表示,使用這「無底碗」喝湯的人,所飲的份量比起人手加湯(從而注意到飲了多少)的參與者多。溫成克更因為這項研究而獲得2007年的「搞笑諾貝爾獎」(Ig Nobel Prize)。

此外,溫成克發表了數以百計的論文,被引用次數逾二萬次,以學術界標準而言他的研究亦甚具影響力。

得到結果後才提出假說

那一篇〈從不說「不」的研究生〉到底有甚麼問題呢?文中溫成克提到,他給那位博士生舒治(Özge Siğirci)的數據,來自在某意式自助餐餐廳進行了一個月的實驗,有部分顧客收費只是其他人的一半。他說︰「這(實驗數據)花了我們很多時間和金錢去收集,我們肯定可以從中打撈一點結果,因為這是豐富及獨特的數據。」

溫成克稱數據不支持原本的研究假說,但他想到另外三個研究方向,於是指導舒治如何分析數據,並不斷重新分析數據、想出其他可能成立的假說,最終成功發表多篇論文。

甚麼是假說?
在科學研究中,假說(hypothesis)是指對一個現象未經證實、能以科學方法驗證的解釋。在提出假說後,科學家需要透過各種觀測手段,包括做實驗、分析統計數據等,以判斷假說是否成立。

然而這故事引起其他科學家注意,因為這樣「重新分析數據」、尋找跟數據吻合的假說,犯上了研究大忌。

嚴謹的研究流程應是先想好要測試假說,再設計實驗、收集數據,最後分析結果是否支持最初的假說。如果把次序反過來,從數據中尋找結果的話,就變成一種循環論證︰在數據中尋找「適合」的假說,再用同一組數據來支持這假說。

當然,假說並非憑空想出來,科學家往往是靠經驗及觀察來推測,而在過往的研究數據尋找新假說亦無問題,但應再做實驗收集新數據,以驗證這個新假說,否則便犯上一種稱為「HARKing」的錯誤——意思是「得到結果後提出假說」(Hypothesizing After Results are Known)。

數據問題

他的網誌引起爭議後,心理學博士生雲達斯(Tim van der Zee)、布朗(Nick Brown)及獨立研究員安拿也(Jordan Anaya)仔細閱讀有關論文,發現有多處問題。

網誌暗示在溫成克的「指導」下,舒治使用同一組數據完成四篇論文,而上述三人亦分析了四篇論文描述研究方法時的字眼,顯示實際上是同一個實驗,然面所有論文均沒有提及其他論文使用相同數據。

雖然重用數據本身不涉及造假,但作者應該明確告知讀者有其他論文使用相同數據,以便讀者在分析各篇論文的結果時有充分資訊。三人進一步分析數據時,發現樣本數量在不同文章中有別,而且有些數據甚至出現一些不可能的數值,他們總共列出約150個問題。

不可能的數值?
他們分析研究中的統計數據,發現多個不可能的數值。例如其中一項評分的平均數是2.63、樣本數為18。將兩個數字相乘後得出47.34,但總分是整數,無論是47抑或48,均無法得出2.63的平均值。

他們提到涉事的四篇論文均未有公開數據,而且其中一篇論文的期刊要求作者公開原始數據,顯然違反規定。雖然三人曾聯絡溫成克等人,希望取得數據,但只收到其實驗室的「通訊專員」回應,對方僅建議他們重複實驗,未有提供數據。

各方展開調查

2017年4月,溫成克所屬的康奈爾大學發聲明表示,他們已進行內部調查,雖然該四篇論文涉及「不恰當處理數據和統計分析」,但這些錯誤未構成科學研究失當行為(scientific misconduct)。同年11月,《BuzzFeed》報道指康奈爾大學正在調查溫成克,但未有透露調查細節。

不過這無阻其他科學家逐一檢視溫成克發表過的論文,並發現更多問題。雲達斯於其網誌整理了「溫成克檔案」(The Wansink Dossier),詳盡記錄溫成克的論文有何問題,以及附上分析其論文的文章連結。

今年2月,《BuzzFeed》從溫成克一位合作者所屬的大學取得電郵內容,顯示他們分析數據時涉及不當行為。他指示舒治分析數據時,建議她把參與者分成不同群組,例如按照性別、用膳時間、同行人數、飲品、坐得是否接近食物去劃分,然後再比較這些群組跟其他人的統計數據有何關係,包括吃了多少薄餅、去了多少次餐廳、有沒有吃甜品等。

溫成克在電郵中告訴舒治「你來之前,嘗試在數據尋找盡量多結果非常重要」,因為這不但會讓實驗室眾人對她留下印象,而且「非常有可能令你在到訪期間獲得可以發表論文的內容」。

何謂「p值操縱」?
做實驗測試假說時,科學家需要透過分析數據判斷是否接受假說。粗略來說,在一個統計模型中,假設假說不成立的情況下,仍得出現有實驗數據的機率就是p值(p-value)。p值的意義常被誤解,詳見此文

學術界過往習慣以「p值小於0.05」為界線,作為實驗結果是否顯著的指標,近年較多質疑聲音。其中一個原因是由於期刊偏好「有顯著結果」的研究,加上科學家面對出版壓力,使他們會嘗試各種統計技巧務求得出「p值小於0.05」的結果,這種做法被稱為p值操縱(p-hacking)

維珍尼亞大學心理學家路錫克(Brian Nosek)向《BuzzFeed》表示︰「我很遺憾要說的是,看了這些電郵後,無可避免會得出研究失當行為的結論。」他批評溫成克的研究「並非科學,這是在講故事」。

史丹福大學衛生研究及政策副教授冼蘭尼(Kristin Sainani)更指「這是p值操縱的極致」,她解釋︰「他們基本上分析了所有變量的每個可能組合,再看看有沒有甚麼顯著結果」。

論文遭撤回,提出辭職

今年9月19日,醫學期刊《美國醫學會雜誌》(JAMA)及旗下兩本內科和兒科期刊宣布,將會撤回6篇溫成克有份參與的論文。

事件源於今年5月有關期刊對溫成克的論文表示關注,並聯絡了康奈爾大學,要求獨立評核其結果是否可靠。然而大學在調查後回應指,他們無法取得這些研究的原始數據,未能保證結果可靠,故期刊須撤回論文。溫成克則表示,他有信心其他研究團隊能重複其實驗結果。

krtphotoslive169215
Photo Credit: BOB FILA / KRT / Newscom / 達志影像

消息公開後翌日,康奈爾大學教務長葛力哥夫(Michael I. Kotlikoff)發表聲明,指大學在過去超過一年時間檢視溫成克的研究。調查委員會確認他犯下多項學術不端行為,包括錯誤報告研究數據、採用有問題的統計技巧、未有正確記錄和保存研究數據,以及不恰當署名。

聲明同時提到,溫成克已提出辭職,並在本學年完結——即2019年6月30日——後退休。在餘下的時間他被移除所有教學及研究職務,負責跟大學方面合作檢視其較早期的研究。溫成克亦於其個人網站上公開為自己在論文犯的錯誤,以及對同事、學校和整體社會科學研究的影響道歉。

進一步調查

其後有51位科學家聯署公開信,要求康奈爾大學公開調查報告詳情。信中對大學的聲明表示歡迎,但指溫成克似乎不承認有任何學術失當行為,僅承認犯下一些輕微錯誤,故希望大學公開報告,讓公眾評價,並給學界了解詳情。

葛力哥夫回應此公開信時提到,大學方面正進行第二階段調查,但因為大學及美國聯邦政府機構的政策規定,調查必須保密,並承諾會在調查有結論後提供摘要。他指大學已要求溫成克收集及提交自2005年所有已發表研究的數據記錄,給調查委員會檢視。

專門報道論文被撤的網誌《撤稿監察》(Retraction Watch)最近推出了一個「被撤論文資料庫」,根據此資料庫,溫成克至今有15篇已發表論文被撤回,另外更正了13篇論文。

相關文章︰

資料來源︰