《暗數據》:沒有人在森林裡聽見樹倒了,不代表樹沒發出聲音

《暗數據》:沒有人在森林裡聽見樹倒了,不代表樹沒發出聲音
Photo Credit: iStock

我們想讓你知道的是

本書探討許多對於暗數據視而不見的情況,討論這些情況如何讓我們做出錯誤、危險,甚至災難性的結論與行動。如今我們所有人都仰賴數據做決定。本書將告訴我們如何避免做出壞的決定。

文:大衛・漢德(David Hand)

數據鬼魂

讓我先從一個笑話講起。

前幾天我在路上遇見一位老人,他走在馬路中央,每隔五十步左右就在路上撒一小堆粉末。我問他在做什麼,他說:「我在撒大象粉。大象受不了這種粉末,所以都不會靠近。」

我說:「但這裡沒有大象。」

他回答:「沒錯!你瞧這粉末多有效!」

笑話講完了,來點正經的。

全球每年有將近十萬人死於麻疹,每五百名感染者就有一人死於併發症,其餘則是終生耳聾或大腦受損。幸好該傳染病在美國極為罕見,一九九九年只有九十九起通報病例。然而,二○一九年一月華盛頓州麻疹爆發,導致該州宣布進入緊急狀態,其餘各州的通報病例也顯著增加。美國以外的國家也有類似情形。二○一九年二月中旬,烏克蘭的麻疹爆發病例已經超過二萬一千例。歐洲二○一七年有二萬五八六三例麻疹,二○一八年卻暴增高達八萬二千多例。羅馬尼亞從二○一六年元旦至二○一七年三月底,則有四千多起麻疹通報病例,造成十八人死亡。

麻疹是可怕的惡疾,由於感染之後要過幾週才會有明顯症狀,很容易悄悄蔓延而不被察覺,根本還不曉得它在傳播,就已經被感染了。

然而,麻疹是可以預防的,只要接種疫苗就能免於被傳染的風險。而美國施行的全國免疫計畫也確實非常成功,應該說太成功了,使得施行這類計畫的國家的大多數家長,一輩子都沒見過或經歷過這種可預防疾病的可怕。

因此,當政府建議家長帶孩子去打疫苗,好預防這種他們從來沒見過或聽過親朋好友左鄰右舍得過、疾病預防管制中心還曾宣布絕跡的疾病,家長自然會對這樣的建議半信半疑。

為了不存在的東西挨一針?感覺就跟撒大象粉一樣。

只是麻疹和大象不同,威脅並未消失,始終千真萬確。只不過家長遺漏了做決定所需的資訊與數據,所以才看不到風險。

凡是遺漏的資訊與數據,我一概以「暗數據」(dark data)稱之。暗數據隱而不顯,單憑這點就可能導致誤解、錯誤結論及壞決定。簡單說,就是無知會讓人出錯。

暗數據一詞發想自物理學的暗物質(dark matter)。宇宙有二七%由這種神祕物質構成。由於它不跟光和電磁輻射作用,肉眼不可見,進而使得天文學家長年不知其存在。直到觀察星系旋轉,發現距離星系中心較遠的星體移動速度並不比距離較近的星體慢,違反我們對重力的理解,天文學家才察覺不對。於是,有人假設星系的總質量比望遠鏡觀察到的星體和其他物體的質量總和還大,這樣就能解釋星系旋轉的反常現象。由於我們看不見那多出來的質量,所以稱之為暗物質,而且這種物質可能分量(我差點就說「質量」)驚人:據估計,我們所在的銀河系擁有的暗物質是一般物質的十倍左右。

暗數據與暗物質很類似——我們見不到那些數據;那些數據沒有紀錄,卻會大大影響我們的推論、決定與行動。本書稍後將會舉例說明,除非我們察覺四周潛藏著未知的事物,否則後果可能不堪設想,甚至致命。

本書嘗試探討暗數據如何出現,以及為何出現。書中將檢視各種暗數據;瞭解這些數據的成因;說明哪些步驟可以避免暗數據出現,防範未然;介紹察覺自己被暗數據蒙蔽時該如何處置;最後指出只要夠聰明,有時還能利用暗數據,從中得益。雖然聽來奇怪又矛盾,但我們確實能夠利用無知和暗數據,思考做出更好的決定與行動。說得更具體一點,就是讓我們生活得更健康、賺更多錢,並明智運用未知來降低風險。這不代表我們應該對別人隱瞞資訊(雖然本書之後幾章會提到,刻意隱瞞的數據是常見的一種暗數據),實際作法比這複雜許多,而且所有人都會受益。

暗數據有各式各樣的形態,成因也五花八門,因此本書建立了一套分類法,以「DDTx」表示「X型暗數據」,並將暗數據分成十五種類型。然而,這套分類並不完全。暗數據的成因太多,可能永遠無法完全分類,而且某個暗數據實例可能同時展現不只一種暗數據的影響。不同型的暗數據可以聯手,甚至產生不幸的加乘效應。

儘管如此,覺察這些暗數據類型,檢視暗數據生成的實例,還是能讓你在問題浮現時立即發現,免於受害。我在本章結尾列出了所有暗數據類型(DD-Tx),按相似度粗略排列,並且將在第十章詳加說明。書中有些例子,我會明白指出這是某一型暗數據,但我刻意避免每個例子都標明,以免妨礙閱讀。

正式開始之前,讓我再舉一個例子。

在醫學領域,創傷是一種重傷害,可能留下嚴重的長期後患,或可導致過早死亡與殘障,是「壽命減損」的最重大事由之一,也是四十歲以下人口最常見的死因。創傷審計與研究網路(TARN)擁有歐洲最大的醫學創傷資料庫,蒐集的創傷紀錄來自全歐兩百多所醫院,除了英格蘭和威爾斯九三%以上的醫院,還包括愛爾蘭、荷蘭和瑞士的各級醫院。不論研究創傷病例的預後或治療的有效性,這個網路顯然都是非常豐富的寶藏。

英國萊徹斯特大學的艾夫吉尼.莫克斯(Evgeny Mirkes)博士的研究團隊,檢視了創傷審計與研究網路的部分數據。他們研究十六萬五五五九個創傷病例,發現其中有一萬九二八九個病例結果不明。在創傷研究中,所謂「結果」是指病患受創三十天以後是否存活。因此,一一%的創傷病人三十天後是否存活,我們不得而知。這是很常見的一型暗數據——DD-T1:我們知道漏掉的數據。我們知道這些病人一定有結果,只是不曉得結果是什麼。


猜你喜歡


年末壓軸不容錯過!線下大型開發者聚會「AWS Enterprise Dev Day」,精進企業雲端技術競爭力就在此刻

年末壓軸不容錯過!線下大型開發者聚會「AWS Enterprise Dev Day」,精進企業雲端技術競爭力就在此刻
Photo Credit:TNL Brand Studio

我們想讓你知道的是

AWS將於今年10月7日上午10:00舉辦線下開發者聚會AWS Enterprise Dev Day,以「技術開發」為活動主旨,透工作坊、講座形式,圍繞NET & Java現代應用、雲端服務、人工智慧等數位技術進行交流,精進企業雲端技術競爭力。

現今雲端已達到隨需可用的成熟度,企業該如何備戰自身技術力,了解透過雲端發展AI/ML應用、大數據分析、優化架構,並趁著新服務或新應用的契機嘗試上雲,或是將既有應用搬遷上雲,達到未來以更低成本有效管理內部資源及強化資安,並減少資源閒置,搭配現代化的方法論及工具保持未來彈性,在技術系統上達到永續經營。

AWS首次在台灣舉辦「AWS Enterprise Dev Day」,希望與企業交流如何在AWS上快速有效地遷移和現代化,以及針對希望了解開發、部署、管理現代應用程序的.NET與Java開發者介紹適合使用的工具和服務。

AWS Enterprise Dev Day活動特色

此次活動為首次為企業舉辦線下大型開發者聚會,為所有.NET與Java開發者量身打造的技術議程,以及同時從主管與開發者角色出發的活動內容設計,如有關於企業上雲挑戰、資安、現代化、開發、訓練考照等精彩內容。歡迎企業執行長、資安長、技術主管、及開發人員團隊立即報名,幫助您利用AWS雲端的廣度和規模,與眾多技術專家交流,持續保持自身企業在未來的即戰力!此外,本次活動全程錄影,報名參與者即可獲得AWS的演講內容。

最特別的是,此次活動下午場次採多軌分場的方式進行,屆時將有多場堂精選技術議程及實作上機工作坊,包含AWS熱門服務精華、方法論、最佳實踐、實戰分享等;而後續更將開放另外報名「.NET & Java現代應用開發實作工作坊」,帶您透過專業技術團隊支援及現場技術專家一對一諮詢,搭配實作課程與團隊協作解決實際技術難題,並與開發者技術同好現場即時互動交流。

立即點此報名「AWS Enterprise Dev Day」開發者技術盛宴!

本場開發者聚會將包含以下七大主題:

  1. NET & Java現代應用開發(.NET & Java Modern Application)
  2. 搬遷上雲(Migration)
  3. 無伺服器服務(Serverless)
  4. 容器服務(Containers)
  5. AI / ML人工智慧與機器學習(AI/ML)
  6. Data Analytics資訊安全(Security)(Security)
  7. 訓練考照(Training & Certificate)
1080x1080_02
Photo Credit:AWS

無論您是企業執行長、技術長、技術主管、資安相關人員、IT人員、解決方案架構師、開發人員、工程師或系統管理員,邀請您一同現場交流,藉此掌握現代開發趨勢、AWS的熱門雲端技術、平台與服務。

AWS Enterprise Dev Day活動資訊

1200x628
Photo Credit:AWS

日期:2022年10月7日(星期五)
時間:10:00 AM~3:30 PM
地點:南港展覽館二館 7F

立即點此報名「AWS Enterprise Dev Day」開發者技術盛宴!


猜你喜歡