從「回歸校正」看資料決策的難題:資料滯延其實在企業也是很常見

從「回歸校正」看資料決策的難題:資料滯延其實在企業也是很常見
Photo Credit: iStock

我們想讓你知道的是

指揮中心也面臨每天需要公布數字、即時做決策,但資料又有些會延遲的問題,所以現在在做的,就是等資料回傳回來再重新檢視過去的判斷有沒有一致。

文:大鼻觀點-統計與資料科學

今天指揮中心公布COVID-19(嚴重特殊傳染性肺炎、新冠肺炎、武漢肺炎)本土病例+321,回歸校正+400,我在社群網路(Youtube、Facebook、PTT)看到有些網友激烈討論:就是+721、指揮中心是不是要做數字、講這樣哪有人聽得懂等等?

其實這個情境在資料科學工作的過程中超級常發生。首先,為什麼要做「校正回歸」而不直接說+721?說到底,這是為了做出更準確的判斷。如果單純看到昨天+3xx 今天變+7xx,決策者可能會認為:「完蛋了,指數成長出現了!我們要採取更嚴格的措施,馬上上升到四級警戒!」但如果把這些今日確診個案歸到採檢日,會發現其實每天確診的個案是相對平穩的,還沒有需要立即提升警戒。這兩者得到的結論相距甚遠!

過早進入更高層級的警戒其實是非常危險的,作為自由的台灣人,大部分的人是沒有辦法在極端不自由的環境堅持太久的,到時候很有可能會出現像日本、歐美國家出現「解封後大爆炸」的問題。同時,就算每個台灣人都很謹慎,長期封城也會對經濟、國民身心靈造成非常大的壓力,所以,如果現在的情勢是三級警戒可以控制的話,那是再好不過了!

接下來有人可能會質疑,突然往回塞數字是不是造假?其實,資料滯延(data latency)在企業也是很常見的問題,比如說:可能退貨退款資料會受到第三方服務營運的影響,造成收到資料的時候跟實際退貨日有幾天的落差;在我們公司會遇到,使用者中間斷網好幾天,資料是等到他重新連網時才會打回來。這時我們通常也不能說,那我們就先閉上眼睛等到資料都回來了再說,所以就得先提供資料,然後到了幾天後資料回補完再看看結論跟當初有沒有顯著落差。

同時,指揮中心也面臨每天需要公布數字、即時做決策,但資料又有些會延遲的問題,所以現在在做的,就是等資料回傳回來再重新檢視過去的判斷有沒有一致。大家也可以檢討為什麼過去篩檢、檢驗的量能跟SOP會造成這些遞延問題,而整個防疫體系也做了,所以才能夠一次回補這麼多案例。

最後,關於「講這樣哪有人聽得懂?專業的要解釋給外行的聽」這個評論,我心裡想說:「天阿!這不就是資料人在公司遇到的困境嗎?」其實我們有意願解釋給決策者聽,但有時候決策者根本聽不進去。此外,有些基本知識要先花不少時間去科普,但決策者跟分析人員都有那麼多事情要忙,其實也沒有時間心力去好好學習。

這次的記者會,大家一開始聽到「校正回歸」這個詞一定會很困惑,這非常合理。但沒過幾分鐘部長就很清楚地說明為什麼要校正回歸(在記者提問前),而有些人並沒有仔細聽這些說明就做判斷。而且,部長這5分鐘已經講得很清楚了,聽不懂的真的可能要解釋1小時才聽得懂,因為分析能力不是5分鐘可以幫忙補足的(p.s. 想像要跟我爸媽解釋這一切......大工程啊)。

在我過去從業過程中,遇到真正能夠做出精準判斷的決策者,都是在接受新資訊時不會急著下結論,認真聽完分析人員說的話,提出適當問題釐清原因,最後才做出判斷的人。我每天都會定期觀看記者會,是因為從整個指揮中心的佈局到宣布,以及到民眾看到訊息的反應,有非常多共鳴,跟資料科學工作環境非常相似。滿推薦大家可以進下心來想想:「如果今天我是指揮官,我應該要怎麼做決策?怎麼宣布這些事項?」會很有啟發喔!


(後續補充) 有很多人在講「名詞問題」,其實完全可以理解「校正回歸」聽起來像是一個巫術,讓人一頭霧水。不過我個人認為,就算把「校正回歸」換成「資料回補」,大家還是會不高興,撇去政治立場的不同,大家可能會擔憂「這個回補是不是在做數據」。

雖然剛開始聽到「校正回歸」會很無言,但遇到這種情況,不妨先深吸一口氣,聽聽完整的說明內容,最後不論是要打臉對方或接受,都可以做出更有邏輯的判斷。另外,也有新聞報導了地方衛生局忙不過來,造成案件沒有即時通報,大家應該可以體諒,疫情突然爆發會有這些運作上的問題都是很合理的。

不論今天是+0還是+1000,過去半個月的經驗都告訴我們,勤洗手、戴好口罩、保持社交距離才是真正對疫情有幫助的事情,大家一起努力吧!

延伸閱讀:

本文經大鼻觀點-統計與資料科學授權轉載,原文發表於此

責任編輯:潘柏翰
核稿編輯:楊士範


Tags: