|
要暸解IRT發展的背景,必須先檢討傳統測量模式的缺點。 和IRT比較起來,傳統的測量模式之缺點主要有下列幾項:
1.試題難易程度的估計因樣本不同而異。試題的難易僅是根據樣 本答對的百分比來確定的。把同樣的試題給一班成績好的學生 做,大部分的學生都答對,試題就顯得很容易;若給一班成績 差的學生去傲,試題就變成很難。顯然,用這種方法確定試題的難度並不很理想。
2.考生能力的估計因測驗的改變而不同。考生的能力是根據他答 對題目的多少來決定的。同一考生如果答較容易的試題獲得,的分數較高表示程度好。但如果答較難的測驗獲得的分數「較低表示程度差。這種因試題難易不同造成同一學生程度有,別是相當荒謬的現象。
3.假定所有的考生的測驗誤差都是一樣。這個假定是不合乎實際 的。事實上測驗誤差的大小與考生的能力有密切的關係。考難的題目能力高的考生誤差比能力低的要小。相反地如果考容易的題目能力高的考生之誤差卻比能力低的考生要大。
IRT的優點
上述傳統模式之缺點也就是的優點。一般言, IRT有下列幾項優點:
1.試題難易之估計不因樣本不同而有異。用IRT試題 區分析方法校準的難易度,鑒別度,猜測度等如果得自不同樣本,只需種過 等化過程,將試題統計資料轉換成同一量尺,便可比較。換言 之,不管使用那一種樣本預試,所得的估計值對任何考生都適 用。
2.對考生能力之估計,不因測驗難易而不同。不管所用的測驗是 難是易,只要是用IRT分析估計的試題參數來估計考生的能 力,所得的結果都是一樣的。如此,考生可以回答不同不同測驗或 不同試題,所得的結果都可以相互比較。
3.測量標準誤的估計因考生程度而不同。每一測驗之訊息也因考 生之程度而有異,因而,考生能力之估計會比較正確。
4.可應用於多項測量問題。例如等值測驗的定義,適性測驗、適題偏向等,IRT能提供較完整的理論基礎。
基本上試題反應理論除了可以用在試題的難度、鑑別度、及猜測度的檢測上,對於一個有效能的題庫建置,也是必頁要的數據化的手段。
由於IRT理論所牽涉的數學理論與統計算法,遠較ICT(古典測驗理論)為複雜,因而,學者與協力廠商根據其所採用的IRT模式(不同維度),而發展出如BILOG(二元化計分)、MULTILOG(多元化計分)、PASCALE(1PL、2PL、3PL、GRM)及TESTFACT(二元多向度)等不同統計軟體。
|