開票日倒數 倒數
0
23
11
50

前往選舉專區

一個設計用來查找論文的軟體,意外掀開「醫學文獻剽竊」黑幕

一個設計用來查找論文的軟體,意外掀開「醫學文獻剽竊」黑幕
Photo Credit: 科學人雜誌

我們想讓你知道的是

一套原本用來協助研讀論文的文本分析軟體,卻意外揭露某些科學家剽竊論文與重複申請研究資助計畫的違反倫理行為。

撰文:嘉納(Harold“Skip”Garner)|翻譯:王怡文

1994年,我找到了事業第二春。我原本是美國通用原子公司內部智庫的物理學家兼工程師,負責解答來自公司任何部門的困難問題。多年來,我處理過各式各樣的案子,例如冷融合和無人偵察機。但是在1990年代初,我經常和生物學家及遺傳學家合作,他們向我提出他們研究中需要哪些很酷的新科技,再由我研發出來。

就在那時,我聽說了一個稱為人類基因組計畫的新研究題目,目標是解譯人類染色體內大約30億個DNA鹼基對(鹼基序列),令我為之著迷。我剛好讀到Scientific American的一篇文章,文章中提到有些關鍵技術尚未研發成功,有待物理學家和工程師實現。

於是我轉任到美國德州大學西南醫學中心當教授,和科學合作夥伴(一位遺傳學家)一起建立人類基因組計畫中,最早的研究中心之一。

那裡的一切都很不一樣。我同事滿口都是另一種語言──醫學,而我講的是物理學。在物理學中,公式幾乎掌控一切;在醫學中,卻沒有通用的公式,只有許多觀察結果、一些片段的了解以及多得驚人的術語。我不斷參加研討會,並抄下一串又一串從未聽過的詞彙,再花好幾個小時去查清楚。我必須隨身攜帶一本醫學辭典,才能研讀科學論文。

我幾乎無法讀懂任何一段文字,在屢遭挫折的情況下,我決定研發軟體來解決困擾。我想要一個搜尋引擎,輸入一大段文字,就會回傳可供進一步閱讀的參考文獻、文獻摘要以及論文,好讓我趕上手邊醫學研究的最新進展。

這是個艱難的研發課題,當時網頁的搜尋引擎才剛起步,用來找城裡最棒的料理沒太大問題,但無法消化一段包含多個有相關概念的文字,更別說要指點我閱讀相關資料。

我帶著幾位學生與博士後研究員,開始研究文本分析;我們一同研發了一套軟體,名為「電子文本搜尋比對工具」(electronic Text Basic Local Alignment Search Tool, eTBLAST),概念來自搜尋DNA或蛋白質序列資料庫用的軟體「生物序列搜尋比對工具」(BLAST)。

通常在BLAST上的查詢是輸入一串100~400個DNA鹼基序列,然後軟體就會回傳包含相同編碼的較長序列。而在eTBLAST上的查詢則是輸入一段或一頁文字,通常包含100個以上的單字。

設計搜尋協定比設計軟體來找一串字母更難,因為搜尋引擎不能只做字面比對,還得認得同義字、縮寫字以及替代用語,也得考慮字詞順序。在查詢一段文字之後,eTBLAST會回報從資料庫裡找到且排序過的「命中」清單,以及查詢文字與所找到摘要的相似度。

我們最常用來搜尋的資料庫是Medline,它的管理機構是隸屬於美國國家衛生研究院(NIH)的國家醫學圖書館,收藏了醫學領域裡所有的生物學研究,包括數千種同儕審閱期刊、數百萬篇研究論文的標題與摘要。

在Medline上有一個可用關鍵字查詢的搜尋引擎,因此只要輸入幾個關鍵字,例如乳癌基因(breast cancer gene),就會找到不少結果,而且常附有全文連結。但是我才剛轉行研究醫學,對於很多研究該從何下手都毫無頭緒。

eTBLAST的初期版本,光是從Medline比對幾百個單字的段落就得花數小時,但確實管用。我透過eTBLAST開始讀懂科學論文,逐段掌握內容要點;我可以把某位研究生的論文丟進去,快速得知相關文獻。我和研究夥伴甚至和Google公司談過,要把軟體賣給他們,可惜他們回覆說這並不適合該公司的商業模式。

後來事情有了奇怪的轉變。好幾次,我發現學生提案裡的文字,和其他未註明受引用論文裡的文字一樣。因此這些學生接受了道德教育課程,而我則改變了我職業生涯的研究主題:有多少專業醫學文獻涉及抄襲?

似曾相識

當我著手探索醫學文獻剽竊的這個新研究主題時,先進行了匿名問卷調查。我在最新的調查結果中發現,1.4%的研究人員承認自己的研究涉及抄襲。但這個數字的精確度取決於回覆問卷者的誠實度,我們可以用eTBLAST查看他們是否所言屬實。

我們找了許多學生以及效能夠強大的電腦,接著從Medline裡隨機選擇論文摘要,再使用eTBLAST查詢。eTBLAST把欲查詢的摘要比對整個Medline,尋找相似內容,然後回傳命中清單,每筆結果都附有相似度分數。受查詢的摘要本身永遠在清單最頂端,相似度為100%,第二筆結果相似度通常在個位數到30%之間,但是我們偶爾會發現第二、甚至第三筆的相似度逼近100%。

sm148-48
Photo Credit: 科學人雜誌

執行過幾千筆查詢之後,我們發現大約5%查詢結果的相似度高得可疑。隨後,我們再檢查那些摘要,以確定軟體找到的是人們也會認為相似的內容,然後我們再針對這些可疑摘要的論文,進行全文比對。

不久,我們就開始找到符合剽竊的案例,不只是重複了一些話,而是整篇照抄;這真是令人失望,甚至震驚。當然我們知道問卷顯示有1.4%的研究人員承認抄襲,但看到抄襲的論文一篇篇列出來又是另一回事。特別是對學生而言,這個過程很刺激,他們覺得自己好像在打擊犯罪,某種意義上的確如此。