病毒測試「準確度」只有20%,代表「反轉看有80%準確」、「擲硬幣還要準」嗎?

病毒測試「準確度」只有20%,代表「反轉看有80%準確」、「擲硬幣還要準」嗎?
Photo Credit: Robin Utrecht / Newscom / 達志影像
我們想讓你知道的是

有報道指中國送往外國的病毒試劑「準確度」只有兩成至四成不等,有網民戲言把結果「反過來看」或者擲硬幣決定更準確,這說法是否成立?

近日出現多個國家指中國提供的沙士冠狀病毒II型(又稱武漢肺炎病毒)試劑準確度過低(20%至40%不等)的新聞,涉及的國家包括西班牙[1]、捷克、土耳其[2]和菲律賓,其後又有部分國家澄清試劑並非中國提供或錯誤率未有報道所指那麼高。[3][4]

網上可以見到不少人讀到這些新聞後表示︰

  • 如果準確度只有20%,反過來看(把陽性和陰性結果互換)不就是有80%正確嗎?
  • 我隨便猜/擲硬幣/擲筊杯都有50%機會猜對,不是比該測試還要準嗎(而且簡單得多)?

雖然很可能只是戲言及反問,但這也是釐清統計概念的好機會。簡單來說,上面兩條問題的答案都是「不」或者「視乎情況」。

何謂「準確度」?

不少媒體在報道試劑結果的新聞時,都用上「準確度」一詞,或以「100%減去準確度」算出「錯誤率」——如果「準確度」是20%的話,「錯誤率」就是80%。不過量度一個測試是否準確其實有不同指標,單說「準確度」的話未必清楚是指哪一個。

一個人只有「染病」和「沒有染病」兩種狀態,而病毒測試有「陽性」和「陰性」兩個結果,結合起來就有四個可能︰

  • 染病+陽性(真陽性)
  • 染病+陰性(假陰性)
  • 沒有染病+陽性(假陽性)
  • 沒有染病+陰性(真陰性)

我們想測試準確,當然希望染病的人測出陽性結果,沒有驗病的人測出陰性結果,所以自然希望提高第1項及第4項的比例,也就是降低「明明有病卻測出陰性」或「明明沒病卻測出陽性」的比例。在討論這種兩項結果的「二元分類測試」時,通常採用「靈敏度」(sensitivity)及「特異度」(specificity)兩項指標︰

  • 靈敏度︰在染病的人當中測出陽性結果的比率;
  • 特異度︰在沒有染病的人當中測出陰性結果的比率。

今次事件上,傳媒提到的「準確度」很可能是指「靈敏度」,例如根據西班牙《國家報》(El País)報道就明確提到有關試劑的靈敏度只有30%。[5]

一個測試可能靈敏度高但特異度低,或者相反,當然最好是兩項都高,最差則是兩項都低。理論上兩項指標互相獨立,實際應用上則可能有技術限制。假設透過測試病毒抗體來判斷是陽性或陰性,需考慮以下因素︰

  • 測試會否把其他物質誤認為抗體?會的話便增加假陽性個案,令特異度降低。
  • 測試需要多少抗體才能得出陽性結果?需要越多抗體的話,陽性結果就越少,令靈敏度降低。

這兩項(及其他影響靈敏度及特異度的)因素是否相關,需視乎檢測技術的細節,這一點留待專家討論。

另外,在討論二元分類測試時,「準確度」(accuracy)代表「真陽性及真陰性結果佔整體的比率」,這個數字除了取決於測試的靈敏度及特異度外,亦受患者比例影響。

Hand prepare to throw a coin - 圖片
Photo Credit: Shutterstock / 達志影像
為甚麼不能把測試「倒轉看」或改擲硬幣

現在我們可以回答上文提及的兩個問題︰

  • 如果準確度只有20%,反過來看不就是有80%正確嗎?
  • 我隨便猜/擲硬幣/擲筊杯都有50%機會猜對,不是比該測試還要準嗎?

如果新聞中的「準確度」實際上是指「靈敏度」,把測試結果反過來看——即把「陽性」和「陰性」互換——無法保證得出更好結果,原因在於我們並不知道測試的特異度以及患者比例。

以下用例子說明。假設100人接受測試,當中40%為患者,測試的靈敏度為20%,特異度為80%,那麼將會得出以下結果︰

  • 40個患者當中,8人測出陽性結果,32人測出(假)陰性結果;
  • 60個非患者當中,48人測出陰性結果,12人測出(假)陽性結果;

所以總共有20人測出陽性結果,80人測出陰性結果,與此同時,總共有56人測出準確結果(8個陽性及48個陰性),因此準確度(accuracy)為56%。假如我們把測試「反過來看」,雖然可以增加真陽性結果(由8增至32),但真陰性結果減少更多(由48減至12),以致整體的準確度會降至44%。

至於按1/2機率隨機決定的方法,包括擲硬幣/擲筊杯/擲骰子(看點數大小/單雙),其靈敏度和特異度必然是50%,不論患者比例,其準確度也一定是50%。

換言之,即使靈敏度低於50%,如果特異度足夠高,準確度——真陽性及真陰性結果佔整體結果的比率——仍可以高於50%,以致「反過來看」無法提升準確度,擲硬幣也不見得比較準確。

如果新聞中的「準確度」真是指準確度(而非靈敏度)的話,由於可能涉及不同的靈敏度、特異度及患者比例組合,同樣在缺乏足夠資訊下,無法斷言「反過來看」或擲硬幣比較準確。

除了統計概念外,我們仍須考慮兩項實際因素——醫療資源及風險。

成本與風險問題

先假設疫情仍在醫療系統可承受範圍內,所有測出陽性結果者均須較高級別的隔離,如有病徵則接受治療,而測出陰性結果者則只需要防護程度較低的家居隔離(甚至不需隔離)。假陽性結果會耗用了不必要的隔離措施(但因為沒有病徵而不需治療),而假陰性結果則會增加傳播風險。

套回上面的例子,無論是「反過來看」測試結果,抑或改用「擲硬幣」去決定,都會減少假陰性結果、增加假陽性結果,而兩者的風險及成本並不相同,因此不能單以「準確度下降」來判斷是否值得去做,需要進一步考慮風險及成本的變化。

以上討論只是建基於虛構的數字,旨在說明問題所在,釐清統計概念。現實中要考慮的議題複雜得多,每個數字的變化均可能影響結果,亦會受各種政策、實際情況影響︰例如接受檢測者是「與確診者有接觸人士」抑或「某個地區的所有人」,都可能會令患者比例、涉及的隔離成本有所改變;又例如「無症狀感染者」的比例,會影響對「假陰性患者」帶來的風險評估等。

當然,測試還是越準確——無論是指靈敏度、特異度抑或準確度高——越好。

相關文章︰為甚麼結果「呈陽性」不等如染病?

註︰

  1. Unreliability of new tests delays effort to slow coronavirus spread in Spain (El País)
  2. Coronavirus: Turkey rejects Chinese testing kits over inaccurate results (Middle East Eye)
  3. 傳中國快篩試劑錯誤率80% 捷克官員:沒那麼高(中央社)
  4. DOH: Faulty coronavirus test kits 'from private foundation,' not China (Rappler)
  5. 同註1。

核稿編輯︰Alex