關於香港6至9月自殺數據分析的爭議,請先看原始數據

關於香港6至9月自殺數據分析的爭議,請先看原始數據
Image Credit: Shutterstock
我們想讓你知道的是

近日有兩篇分析香港過去數月自殺數據的文章,得出的結論可謂完全相反,重點在於原始數據不同。

唸給你聽
powered by Cyberon

筆者,都用咗一晚時間去諗寫唔寫,同點去寫呢一篇文章。

但說到底,是其是,非其非,就算我認為警隊如何做錯,用上了錯誤的數據去指責他們,亦不是正確的事。

事緣關鍵評論網編輯Kayue與我傾談剛在他們平台發佈的一篇由朱孝文先生寫的文章[1]與另一篇廣為人轉載的文章〈殺人警察〉[2],用數據去分析有關近來香港的自殺數字。

兩篇文章都關於近期自殺數據,但這兩篇文章得出的分析結果與及推論,可以說完全相反。

細閱他們的分析,縱然有所不同,但也是一些基本的方法,為何會得出如此不同的答案?

要知真相,就要由原始數據開始睇起。

朱先生的文章用上了「2019年香港自殺資料統計」[2](朱先生的內文附有連結),由1月開始收集數據至9月16日,而〈殺人警察〉那篇文章則用了「學術界朋友的數據整合」[3](未知數據來源),收集由6月12日開始的自殺個案。

只要細心看看原始數據,2019年香港自殺資料所收集的個案要比那位學術界朋友的要多。

但數據除了要數量以外,還要準確。

於是筆者進行抽樣檢查,從「2019年香港自殺資料」的數據抽了5個他們參考的新聞資料,確定了數據無誤;再去看雲吞博士學術界朋友的數據,一看他們參考的新聞資料,發現第一個列在6月12日的個案發生在6月15日,第三個列在6月15日的個案卻發生在6月16日,而第七個列在6月17日的個案,實際是在6月18日發生。(編按︰這數據組的完整問題,詳見〈Fact-Check「雲吞博士」的自殺數據〉。)

基於以上種種原因,筆者傾向覺得朱先生所用的數據較為可靠,決定用「2019香港自殺資料」的數據,認真自己從頭做一次分析。

以下是結果:

9月嘅自殺數字確實並無統計學上具顯著性(Statistical Significance)的上升。9月份直至16日平均每日有3宗個案,而由1至8月平均每日也有2.95宗個案。

而年齡上,由今年1月開始到9月16日,按月與月之間的比較也無統計學上有顯著分別。9月直至16日的自殺個案平均年齡是48.8歲,而1至8月的個案平均年齡是48.2歲。

最後,男女比例上,9月份自殺的女性比率是比其他月份高,到9月16日為止有51%為女性,而1至8月的數字為37%;但也沒有統計學上的顯著性,所以自殺個案的男女比率9月與之前的1至8月還是沒有大分別。

總括來說,筆者自己做的分析結果與朱先生文章上所說明的結論是相似的,但卻與〈殺人警察〉文章所得的結論有很大分別。

筆者的這篇文章,旨意希望大家留意分析時所用的數據與數據庫的質量,都會影響到得出的分析結果,然後直接就影響到所推出來的立論。

是的,我們都很想找到831的真相,但數據是需要認真對待的。筆者十分認同朱先生在文章所用的文字與結論︰

大家要注意我所用的數據也只有9個月,仍然不足以顯示長期規律。由於自殺數據很受季節性影響,我認為只有用5年或以上的數據來進行比較,才有較大參考價值。

統計分析是不可能告訴大家到底有沒有「被自殺」個案的。基本上,除了實質證據(如太子站的CCTV)能告訴我們事實真相,其他數字都只能作為一般參考。

參考資料︰

  1. 朱孝文︰9月初自殺數字比6月激增?下結論前須注意分析細節(關鍵評論網)
  2. 殺人警察(雲吞博士的語言藝術Facebook專頁帖文)
  3. 2019年香港自殺資料統計
  4. https://www.dropbox.com/s/dvr2e17amyj37ee/Cides20190910.xlsx?dl=0

本文獲授權轉載,原文見作者Facebook專頁

責任編輯︰鄭家榆
核稿編輯︰黎家樂