先来简介一下项目反应理论:
任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面:
(1)测量结果的应用范围有限。一般来说,对测量误差的控制有三种方法:配对或标准化、随机化、统计调整。配对或标准化技术的应用使得误差变量的影响不能解释测量结果的差异,随机化技术的应用可使误差变量的影响不能在测量结果上形成系统误差。统计调整技术建立在数学模型基础上,将误差变量的影响参数化,从而在测量中调整参数估计值,减少误差变量的影响。经典测验理论主要应用的是配对或标准化技术和随机化技术。然而,使用配对或标准技术的测量结果仅仅能在相同的测量条件下成立,却不能将其拓展到非标准化的环境之中去,使得测量的应用受到很大的限制。
(2)测量分数赖性于具体的测验(内容)。经典测量理论控制误差应用标准化技术,但其标准化的对象是测验的各种外部变量,对测验的内部变量即测验的项目的“性质”这一变量却没有也不可能实现标准化。这就造成了测验分数对具体测验的依赖性,迫使经典测验理论要么使用统一的试卷,要么使用实际上并不平行的所谓“平行试卷”。这种处理方法,即给实际操作带来困难,也给结果的解释带来较大的误差。
(3)测量参数依赖于被试样本。经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。如测验的信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。测验的信度和效度采用相关分析法,同样受到样本的影响。为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。但经典理论所应用的是随机抽样,随机抽样总是偏差存在。何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。因此,参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。
(4)信度估计的精确性不高。测量的重要目标就是降低测量误差,提高测量的精度。在经典测量理论中,信度被定义为真分数的变异在总变异(观测分数)中所占的比率。然而,真分数的方差是无法求取的,误差的方差也无法计算。为了估计信度,CTT就提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。(转 开f1寻找天使的博客)
欢迎大家订阅项目反应理论IRT文库:IRT