【專訪】越測越不準?黃宏宇教授破解古典測驗理論瑕疵,釋放個人真實內涵

【專訪】越測越不準?黃宏宇教授破解古典測驗理論瑕疵,釋放個人真實內涵
Photo Credit: iStock

我們想讓你知道的是

考試是台灣人共同的生命經驗,有些人甚至從小學一路考到研究所。但你有想過這些考卷真的能反應你的能力嗎?而這些利用過時的「古典測驗理論」,所設計出的考卷,又為何能穩定佔多數?

作者:人文.島嶼 ( 採訪撰文:吳景濱|編輯:張傑凱|攝影:陳怡瑄 )

該如何瞭解一個人呢?測驗是很好的方式之一。

台灣是一個測驗導向的社會,我們藉由一份份有系統的測驗,意圖瞭解一個人的學業成績、能力評量、人格特質、態度傾向甚至情緒波動。

這使我們從小到大經歷了無數次的測驗或考試,而所映照出的分數,就代表了個人的傾向、態度,甚至價值。然而,這許多大大小小的測驗,真的能測出我們想要的答案嗎?

台北市立大學心理與諮商學系黃宏宇教授,認為過去編製的傳統測驗,存在一些假設瑕疵,例如最容易被一般大眾提出的詰問:「這個測驗真的準嗎?」。

在我們的成長經驗中,通常會將一份試卷的分數加加減減,最終得出的總分就是測驗的結果,同時也代表了我們某項特質或能力的程度。

這是傳統測驗普遍基於「古典測驗理論觀點」所編製出的處理方式。古典測驗理論方法相當簡便且快速,但是測出來的結果,真的能夠反映出每個人的真實表現嗎?

臺北市立大學心理與諮商學系黃宏宇教授
台北市立大學心理與諮商學系黃宏宇教授 Photo Credit: 陳怡瑄

越測越不準?古典測驗理論的瑕疵

事實上,有別於固定的試題內容,人是更多變且容易被外在因素影響的個體。因此運用古典測驗理論加總各題項的分數,用總分表現個人特質的方式,忽略了每個人對於各題項認知處理的歷程。

黃宏宇說測驗的目的,是希望透過穩定、且有效的方式,真正測到個人的真實能力或態度傾向。但是運用古典測驗理論所編製的測驗,卻有著三大假設錯誤。

「其一是尺度問題」,黃宏宇進一步說明:「例如今天有一個題項詢問你的憂鬱程度,請你圈選1到5分,但是很有可能因為每個人對於分數的標準都不一樣,有人覺得4分很嚴重,有人可能覺得3分就很嚴重了。另外還有種可能是,假設最近考試壓力大,你覺得好像蠻憂鬱的,於是填答了4分甚至5分,這就是『等距假設』所導致的誤差。」

因為各題項的分數,在每個人的心理表徵並不見得是等距的。而如果將這些不等距的各題項分數加總,並聲稱該總分就是個人特質的話,便可能會影響測驗結果。

「另一種為『答題風格』的假設錯誤。」黃宏宇表示我們每個人,都有屬於自己答題的「反應風格(response style)」。

jajj4qgbiv1t08yrs5eb57kw4eb9dn
Photo Credit: 中央社

可以觀察一下自己或他人,在寫測驗的時候,是不是會有特別的填答傾向?例如有些人特別喜歡填答「是」──具贊同試題的傾向,或者相反。另外,還有些人反應比較大,在分數1到5的答案之中,不是將分數填答在「1」、就是填答在「5」,很難有中間值,這就是每個人的答題反應風格的不同。

另外黃宏宇指出華人普遍喜歡趨中的填答,「還好」、「沒感覺」是經常會遇到的中庸答案,其實這樣的答題反應風格,相當容易造成研究的偏誤。比如說,具趨中反應的受試者,填答「3」時,其內心反應的強度,搞不好已經和填答「5」的人相似。

「然而在古典測驗理論的觀點裡,無法改善這類偏誤,只能把它列為測驗是否有效的影響因子而已。」黃宏宇補充道:「事實上,每個人在個別試題的反應上,都會有不同的表現。」

最後第三個假設錯誤是「測驗難度的依賴性」。黃宏宇表示:「以古典測驗理論所編製出的測驗,同時拿給普通班、資優班、資源班進行施測,會發現不同的測驗結果。對於資優班而言,題目可能相對簡單;但是對於資源班來說,題目又會過難,此時就很難去定義測驗本身到底是偏難或偏易。」這是因為受試者具有不同族群的特殊性存在。

倘若具有不同族群的受試者同時進行同一份測驗,則因為群體間存在能力上的差異,進而會影響到測驗結果分析。此外,在古典測驗理論的信度模式下,測量結果的誤差不會存在群體間的變異,這也是一個很不合理的假設。試想一件M號的衣服,它給中等身材的人穿很合身,但是對於高大身材的人就不是那麼合適。測驗也是如此,中等難度的測驗適合一般學生,但不見得適合資優或資源班學生,因此測量結果的誤差就會不相同。

而遵循古典測驗理論的研究者,通常將測驗分數視為等距量尺來計分,忽略個體的認知反應歷程,以及忽視測驗結果誤差的變異性,並據此宣稱獲得研究結果。黃宏宇便強調,以此方法所得出的研究結果,可能是有瑕疵、或是不正確的。

當代測驗理論:試題反應理論(item response theory, IRT)

「試題反應理論則可以解決上述問題。」黃宏宇堅定道:「因為在試題反應理論所建構的機率參數模型裡,已將受試者的能力與試題的特性納入考慮,其中受試者的表現情形或反應機率,可以與內在潛在特質形成一種連續性遞增的數學函數。」

這條數學函數稱作「試題特徵曲線」(item characteristic curve, ICC),是由數學方程式所推導所形成的「機率參數模型」,可以用來表徵每一道試題的特性,包含試題難度、試題鑑別度與試題猜測度,並透過機率模型,顯示受試者的個體能力在不同試題上的答題表現。在這個架構之中,能提供更有效且貼近真實的能力或特質的測量。

具備「試題特徵曲線」的題項,可以估計出受試者在某一試題上的選答機率,以及受試者某種潛在特質的程度。當潛在特質的程度愈高(或愈強),在試題上的正確反應機率便愈大。

03-答題風格
Photo Credit: 人文島嶼

黃宏宇指出:「有別於古典測驗理論以測驗總分來看待個人特質,試題反應理論是以單一題項觀點為出發的測量理論。」在這個關係線中,可看出試題是否能有效鑑別出個人的潛在特質,以及瞭解個人在答題上更細緻的樣貌。