雲吞博士應該撤回他的自殺率「統計」,兼論求真的重要

雲吞博士應該撤回他的自殺率「統計」,兼論求真的重要
Photo Credit: Shutterstock
我們想讓你知道的是

8.31太子站疑點重重,社會絕對應該找出真相。但既然是找真相,我們必須依賴真的、可靠的資料﹑數據和分析。不是嗎?我們都很討厭黑警,但我們無論如何,絕對不能用錯的資料和數據來作重大指控。

唸給你聽
powered by Cyberon

首先我希望大家有個共識:這場運動除了五大訴求,我們還非常在意一件事:求真。

前幾天,臉書專頁「雲吞博士的語言藝術」以〈殺人警察〉為題發表了關於香港近三個月自殺率的「研究」(下稱「原帖」)。他的結論是最近自殺率「突然飆升」,「數據實在太巧合,令人很難懷疑警察沒有殺人,然後故意毀滅證據」。身為語言學博士的雲吞博士說,看到這些資料再自行分析後,他對警察有否殺人的懷疑已「一掃而空」。原帖至今已有1萬4千讚好以及1萬7千多分享。[1]

用另一組數據統計,未見自殺率突然飆升

同日,由於我和朱孝文對雲吞博士的數據和分析方法有所懷疑,我們用2019年香港自殺資料統計的數據重新做了一次統計。[2]注意,原帖並沒有列出最重要的兩項資訊:一,數據來源(他只說是「學術界朋友」),第二,數據搜集方法。而我們早在9月初開始有人談論自殺數字時,就詢問過「2019年香港自殺資料統計」的楊先生資料搜集方法,而楊先生回覆說他們有專人每天閱報搜集資料、核實資料,並剔除重覆的統計。這種方法不代表楊先生的數據「完美」,但這是一個合理的搜集過程。而我們當時有抽樣檢查過楊先生的數據,證實無誤。

結果我們用同年1月至9月的數據,用十天平均移動窗口做了一次簡單分析,結果跟雲吞博士的完全相反。我們發現,3月和7月各有一個自殺高峰,部份佐證了一般的季節性自殺潮(春末夏初是自殺高峰期,9月開學後也會較多人自殺),但完全得不到「9月自殺率突然飆升」的結論。

然後,科普作者科豆也檢視了我和朱孝文做的分析,以及原帖的分析。[3]他檢查了2019年香港自殺資料統計的原數據(raw data)和原帖用的原數據,發現前者比後者收集的數據要多。即是說,有些已證實、已被報道的自殺個案,在雲吞博士所用的數據中消失。科豆同時發現,原帖所用的數據有不少錯漏:「第一個6月12日的個案,是發生在6月15日的,而第三個6月15日的個案,卻是發生在6月16日,而第七個在6月17日的個案,實際是在6月18日發生。」

科豆隨後使用2019年香港自殺資料統計重新分析,與我和朱孝文得出相似結果:「9月自殺數字確實並無統計學上有意義(Statistical Significance)的上升」。他完全得不到原帖的結果。

雲吞博士所用數據本身已有問題

再之後 ,關鍵評論網香港科普編輯Kayue(編按︰只是個偶爾寫點科學的普通編輯)完整fact check了原帖所用的每條數據[4],發現:

雲吞博士的原始數據總共有108項記錄,全部附上有關的新聞連結,我逐一打開檢查後發現最少有17項(15.7%)錯處,當中10項(9.3%)應該刪除,例如並非自殺案、沒有死亡或重複點算,另外7項為日期、時間或死者資料有誤。

然後,除了錯誤點算,還有遺漏個案:

如果跟「2019年香港自殺資料統計」中同期自殺死亡數字比較,後者記錄的個案明顯較多,有3天——6月12日、7月2日及7月15日——兩者相距甚至多達5宗。

原帖說所用數據「有包括太古廣場自殺的義士」,但關鍵評論網的fact check也反駁了這說法——數據根本沒有包括當日在太古廣場自殺的義士。

也即是說,雲吞博士所用的原數據錯漏百出完全不可靠,沒死也當死了,工業意外當成自殺來計。做統計其中一項基本功是「clean data」——有沒有錯的紀錄?有沒有打少了打多了一個零?有沒有重要又已知的個案是沒有被紀錄下來的?——這些問題會直接影響後面分析的可信性。錯的數據資料自然會引致分析者做錯結論,這跟藍絲天天看TVB,然後覺得警察被示威者打很可憐是同一原理。

單就這一點,雲吞博士已應撤回原帖,並且向大眾解釋數據問題。如果雲吞博士認真求真,他大可clean data後再做一次分析,看看會不會得出不同的結論。然而他沒有。我和一些有質疑的人在他的專頁問他,既然已證實原數據錯漏多多,會否撤回帖文?可惜他的選擇是逃避,完全沒有正面回應過數據問題,只說「我不信有一種特別hegemonic的分析方法」,「我們agree to disagree」。[5]

用「自殺率」分析的問題

再者,除了數據,他的分析方法也有問題,此處不贅。另一問題是,他在用錯的數據和不正確的手法做出不實結論後,還用上和證據嚴重不符的標題去表達意見。自殺率是無法看出黑警有否殺人的。就算黑警只「被自殺」了一個人,那也是「被自殺」,但單看自殺率完全不能得知有沒有這種事發生。如果自殺案件有可疑,大家大可沿線索一單一單追查,而不是拿自殺率出來說:「你看,這麼不尋常,還不是黑警殺人?」這兩件事完全,是完全沒有關係。就算退後一萬步,自殺率真的不尋常飆高,我們也不能透過這筆資料作出「殺人警察」的結論。這是每一個受過教育,有基本邏輯思考的人都明白的。

身為社會學人、學術人,我對雲吞博士對待知識的態度極之失望。他自稱「學術人」,在這件事上對待學問﹑真相﹑知識的態度卻不見嚴謹。「學者」二字是有重量的,這是一般人眼中的「專家」,他的意見是比較權威,比較可信的。濫用這種「光環」,但沒有相應的認真,是非常嚴重的事。

我個人相信雲吞博士也是求好心切,希望大家繼續關注太子站事件。根據立場新聞等媒體的fact check[6],我們也可見8.31太子站疑點重重,社會絕對應該找出真相。但是既然是找真相,我們必須依賴真的、可靠的資料﹑數據和分析。不是嗎?我們都很討厭黑警,但我們無論如何,是無論如何——絕對不能用錯的資料和數據來作重大指控。

不求真,等如縱容假資訊禍害

我們為甚麼恨黑警?因為他們打人且謊話連篇。再講一次:因為他們講.大.話。他們發放的消息和資料很多都是假的﹑偏頗的﹑有明顯價值取向而不是反映事實真相的。謊言令公權力失信,社會上才流言四起,大家憂心是正常的,在缺乏可靠資訊的情況下,想在其他地方找出事實真相也情有可原。但,我們不能因此令自己也成為假資訊的奴隸,或明知資料有問題,但誤以為就算假也有助公義得彰顯,於是任由它繼續傳播。如果連同路人都不能信,究竟這場運動可以走多遠?

運動開始時大家還有點注重「fact-check」,但後來「FC」愈用愈沒意思,從朋友處聽來的又是FC-ed﹑在Telegram討論中看到的又是FC-ed。後來「鬼」的傳聞愈來愈多,除了有真「鬼」外,很大部份是濫用「FC」二字的結果。假如你說是真的事原來都是假的,我為甚麼要信你?

我們反對對抗爭者的抹黑,反對黑警記招的說法,反對TVB等媒體的偏頗報道,不就是在反對假資訊嗎?我們為甚麼要容許任何不實的消息傳播?我們要求成立獨立調查委員會(當然現在已遠遠不夠),不是在要求真相嗎?

我們在打的不止是勇武的街頭戰,更大更持久的戰爭是信息戰。威權政府發放假消息比黑警更聰明,他要發一些真的,也發一些假的,務求令大家混淆真假——但大家注意:假消息有時不會因為「澄清」就不再流傳。我們能夠盡力打假,但人有「動機性推理」(motivated reasoning)的機制,會容易相信合乎自己信念的消息,這是我們應力求避免的。如果數據真的顯示有古怪,那我們就說「一早都話架啦」;但數據沒古怪,我們又說「數據都可以係特登做來混淆視聽架啫」——那即是我們自己承認根本沒有真相。一個自己承認沒有真相的社會是危險的。求真不是整場運動,以及所有為運動犧牲過的人的原意嗎?

我們在打的大佬所掌握的資訊比我們多,資源比我們豐富,發放資訊的渠道之多也是我們望塵莫及的。我們在打的是一場逆境波,所以我們要對自己比對敵人要求更高,而且,我們必須在這場運動中變得更強大,更有學問,更清醒。我常常跟自己的學生說,道德與良善是基本的,但對知識沒有尊重,這些善意也是很可能被利用的。

我也希望大家了解一件事:我們反對假的資訊,不代表我們認為太子站或個別自殺事件沒可疑。如果我們真的希望找出真相,必須繼續追查有問題的「自殺」案件,以及要求黨鐵公開閉路電視錄影帶。這些才是真真切切的證據,是我們想要的證據。

註︰

  1. 殺人警察(雲吞博士的語言藝術Facebook專頁帖文)
  2. 朱孝文︰9月初自殺數字比6月激增?下結論前須注意分析細節(關鍵評論網),原文見作者Facebook專頁
  3. 科豆︰ 關於香港6至9月自殺數據分析的爭議,請先看原始數據(關鍵評論網),原文見作者Facebook專頁
  4. Fact-Check「雲吞博士」的自殺數據(關鍵評論網)
  5. 詳見雲吞博士於其英文版文章的留言
  6. 《立場新聞》8.31 Fact Check系列1, 2, 3, 4

本文獲授權轉載,原文見作者Facebook專頁

相關文章︰

責任編輯︰鄭家榆
核稿編輯︰歐嘉俊