《暗數據》:沒有人在森林裡聽見樹倒了,不代表樹沒發出聲音

《暗數據》:沒有人在森林裡聽見樹倒了,不代表樹沒發出聲音
Photo Credit: iStock

我們想讓你知道的是

本書探討許多對於暗數據視而不見的情況,討論這些情況如何讓我們做出錯誤、危險,甚至災難性的結論與行動。如今我們所有人都仰賴數據做決定。本書將告訴我們如何避免做出壞的決定。

你可能會想,這有什麼問題?只要分析我們知道結果的那十四萬六二七○位創傷病人,從中得出理解與預後就好。畢竟十四萬六二七○是個大數字,至少醫學上如此,所以我們當然可以很有把握地說,從這些數據得出的結論是正確的。

可是,真的是這樣嗎?說不定少掉的那一萬九二八九人的數據,跟其餘病人很不一樣。畢竟他們顯然有一個不同點,就是結果不明,因此設想他們可能還有其他方面和其餘病人不同,也就不無道理。相較於納入全體創傷病人,只分析結果已知的十四萬六二七○位病人可能會造成誤導,據此採取的作為也可能出錯,可能導致錯誤的預後、不正確的處方、不當的治療方案,對病人造成不幸甚至致命的後果。

讓我們暫時撇開現實,舉個極端的例子吧。假設結果已知的那十四萬六二七○位病人,未受治療都存活下來並康復了,而結果不明的那一萬九二八九名病人都在就診後的兩天內死亡。這時要是忽略結果不明的病例,我們就會信誓旦旦地下結論說,不用擔心,所有創傷病人都會康復,面對新的創傷病人也都覺得他們自己會好,因而不進行任何治療,結果卻驚慌又困惑地發現怎麼會有一一%以上的病人性命垂危。

在往下說之前,我想先請讀者放心,我舉的極端例子是最嚴重的狀況,我們大可相信現實不會這麼糟,而且莫克斯博士和他同事是研究遺漏數據的專家。他們很清楚箇中危險,也一直努力研發統計方法來處理這類問題,本書稍後會介紹這些方法。但這個例子給我們的教訓是,事情可能不是外表看上去那樣。事實上,如果你要我用一句話總結這本書,我可能會用這句話。

擁有大量數據是好事,也就是所謂的「大數據」,然而不是量多就好。要瞭解真實情況,我們不知道和不擁有的數據,可能比我們擁有的數據還重要。不論如何,我們之後就會明白暗數據的問題不只發生在大數據,小數據也躲不過。暗數據的問題無所不在。

我舉的TARN資料庫的例子可能很誇大,但很有警惕作用。那一萬九二八九位病人的結果沒有紀錄,可能恰恰因為他們都在三十天內過世了。畢竟如果結果是入院三十天後才測量,過世者顯然沒辦法回答問題。除非我們意識到這個可能,否則永遠不會記錄到過世的病人。

這件事乍聽之下有點蠢,其實還滿常發生的。例如我們根據之前接受某項治療的病患的結果建立了一個模型,用來判斷新進病人的預後,決定他們是否要接受該項治療。但要是之前設定的時間對某些病患來說太短了,來不及出現結果呢?對於那些病患,我們其實並不曉得最終結果。如此一來,只建立在結果確定的病患上的模型便有可能造成誤導。

民調也有類似的狀況,「未回應」往往會造成問題。研究者通常會有一份名單,上頭是他們希望回答問題的人,但通常不是所有人都會作答。要是作答和不作答的人在某些方面有所不同,研究者就得擔心統計數據能否切實反映母群體的狀況。畢竟如果某家雜誌進行訂戶調查,只問訂戶一個問題:你有回覆本刊的調查嗎?我們也不能因為回覆調查的人答「有」的比例百分之百,從而推論所有訂戶都有回覆。

前面這些例子都是第一型暗數據。即使不是所有TARN病人的量測值都有記錄下來,我們確信他們都有數據。我們也知道所有接受民調的人心中都有答案,只是有些人沒有作答。我們通常知道數值一定在,只是不曉得是多少。

接下來是另一型暗數據(DD-T2:我們不知道漏掉的數據)的例子。

許多城市都有路面坑洞的問題。冬天水會滲進路面縫隙,然後結凍,將裂縫撐大,接著又被車子的輪胎不停碾過,形成惡性循環,最後弄出足以損壞輪胎或車軸的大洞來。美國波士頓市決定運用現代科技來解決這個問題。市府推出一款手機應用程式,使用手機裡頭的加速度感測器偵測車輛經過坑洞時的震動,再用GPS將坑洞位置傳回市府單位。

這招真是太帥了!這下高速公路養護工程大隊肯定知道上哪兒填補坑洞了。

這又是一個運用現代數據分析技術,輕鬆漂亮解決實務問題的好例子——只不過有車又有手機的人通常集中在收入較高的地區。因此,收入較低地區的路面坑洞可能不會被偵測到,坑洞位置也不會送出,某些區段的路面坑洞可能永遠不會補好。結果,這個方法非但沒有徹底解決問題,反而可能加劇了社會不平等。這個例子跟TARN的例子不同。TARN的例子是我們知道數據有遺漏,這個例子我們則是不知道數據存在。

以下是這型暗數據的另一個案例。二○一二年十月底,又名「超級珊蒂」的珊蒂颶風襲擊美國東岸,不僅造成美國史上第二慘重的颶風災情,也是自有紀錄以來最猛烈的大西洋颶風,財物損失估計高達七百五十億美元,共有八個國家兩百多人死亡。美國有二十四州受到影響,包括佛羅里達、緬因、密西根和威斯康辛,金融市場也因為停電而關閉。這場颶風還間接造成九個多月後生育率突然飆升。

除此之外,現代媒體也在這場颶風中大獲全勝。珊蒂颶風所到之處,推特也颳起一場訊息風暴,分享即時現況。推特的功用就是在第一時間告訴你哪裡發生了什麼事,還有發生在誰身上。這是個讓人即時掌握事情動態的社群媒體平台,而珊蒂颶風來襲期間正是如此。二○一二年十月廿七日至十一月一日,推特上出現了兩千萬則颶風的相關貼文。於是我們可能會想,這些貼文應該可以讓我們持續掌握颶風的發展,找出哪些地區受創最重,哪裡需要緊急救援吧?