20世纪60年代以来,美国通过立法实施了“全国教育进展评估”(National Assessment of Educational Progress,简称NAEP),又称为“全国教育报告卡”(The Nation's Report Card),其首要目标是向美国公众报告中小学生的教育状况,促进教育质量和学生学业成就的不断提高。NAEP是美国惟一的具有全国性、代表性和持续性的评价学生学业成就的项目,由美国国会授权,美国教育部所属的全国教育统计资料中心管理,并由教育考试服务中心( Edu-cational Testing Service, ETS)实施。
NAEP每隔两年在全国范围内进行一次阅读和数学测试,在时间和资金允许的情况下,定期对写作、科学、历史、地理、公民学、外语、艺术等学科进行测试,测试内容反映最新的课程重点和目标。NAEP的结果以两种方式向公众报告,一种是等级分数(scale scores),其中阅读、数学、历史、地理为0-500分,科学、写作为0-300分;另一种是成绩水平(achievement level),分为三类:基本(basic)、熟练( proficient)和高级(advanced)。除了基本的成绩评估外,它还纳入了背景问卷调查。评估结束后,其最终结果以学生的性别、种族、学校类型、所在地区、背景信息等类别进行报告。NAEP不报告参与评估的个别学生或个别学校的信息,而是以人口群体(如4年级、8年级学生等)和子群体(如男生、女生等)来报告学业成绩等方面的信息。其评价方式分为全国评价、各州评价和试验城市评价。
研究表明,NAEP在提高学生学业成绩、提高教育质量等方面取得了一定成效。例如,美国在“国际数学和科学研究趋势”( Trends in International Math-ematics and Science Study,TIMSS)中排名的总体趋势不断提升。总的来说,NAEP作为长期的中小学学生学业成绩测量体系,具有多方面的优势。
(I)NAEP是全美惟一的从全国范围内收集典型性学生样本,且持续时间长达数年的学生学业成绩测量体系。通过NAEP,评估者可以对学校教育教学质量进行监控,促进成绩较差的学校和学区改进教学方式,提高学生的成绩。
( 2)NAEP的评估理念是了解不同年级学生对不同学科的掌握和应用情况,因此,它为每个年级的学生制定了明确、具体的目标。通过考试成绩所提供的信息了解学生在知识技能掌握方面的优势和不足,可以督促教师用心教学,督促学生努力学习,从总体上提高基础教育质量;同时,也便于教师最佳配置美国学生所需要的知识、技巧和能力。
(3)NAEP的考试内容与学校课程密切相关。通过各种问卷对教师和学校进行背景变量的调查,可以使教学内容更加规范;评估的实施和结果报告能够直接推动学校课程的改革和教师教学行为的改进,对推行全国统一的课程标准也具有积极的作用。
(4)NAEP具有科学的测试工具、管理程序和评分方式。它基于项目反应理论(ltem Response Theo-ry,IRT),采用学术界一致认可的参数估计软件(如BILOG和PARSCALE)进行项目参数估计,然后根据学生的答题情况和各种预测变量(如性别、年龄、种族等)估计学生的能力值。同时,NAEP还采用垂直等值( vertical linking)的方法将各年级学生的最终成绩置于同一个量尺上,以便各年级之间的直接比较。
NAEP在美国实施十多年来卓有成效。中国为了顺应世界性的基础教育课程改革潮流,也进行了新一轮面向21世纪的基础教育课程改革。从2001年颁布《基础教育课程改革纲要(试行)》到现在,新课改进入试验区已经走过了近十个年头。新课改实验工作进展如何,社会各界都万分关注。及时了解和评估课程改革的进展情况,既可回应社会的关心,也是推动试验工作顺利进行的必然要求。为此,中国也有必要建立一个类似于美国NAEP的全国性评估系统,但是,我国是否应该完全效仿美国的NAEP呢?事实上,对于有些地方政府决定直接原封不动引进美国NAEP的决策,在我们看来,是不合理的。首先,它在设计和计算得分上存在一定的局限性,如采用imputation从后验分布中生成随机数的方式来获得学生得分的方法让美国公众极为费解。其次,它仅仅给出每个年级学生每年成绩的变化趋势,并未对得分增高或者下降的原因加以诊断。最后,它采用纸笔测验,估计的准确性和效率有待商榷,题库的维护和考试的安全性也有待进一步完善。所以,对于美国的NAFP,我们要取其精华,并着重开发适合于中国国情的教育进展评估(NAEP).只有这样,才能最大限度地发挥这项评估的意义。以下,我们首先介绍美国NAEP的设计和测验模式,然后就中国的现状提出中国的NAEP应该着重发展的几个方面。
一、美国NAEP的设计及反思
美国NAEP包括许多科目,其中,数学和阅读两大科目研究得比较完善。这里,我们以数学科目为例来详细介绍NAEP的设计。数学评估主要包含两个方面,一是数学内容领域( content area),一是数学项目的复杂度( Mathematical Complexity of Items)。其评估的具体内容包括五个维度:(1)数字的属性与运算,具体包括数字感知、数字估计、数字操作、比率和比例推理、数字属性与操作等;(2)测量,具体包括测量的物理属性和测量体系;(3)几何,具体包括尺寸和形状、转换形状和保留性质、几何图形之间的关系、位置和方向以及数学推理;(4)数据分析与概率,具体包括数据表达、数据集合的特征、实验、样本和概率;(5)代数,具体包括模式、关系与函数、代数表征和变量、表达式与运算。
1.内容单维结构与恰当的矩阵取样技术
NAEP数学考试要涉及五个部分的内容,每个内容本身呈现单一维度,即“内容单维”结构。如果每个维度包含35道题,总共就有175道题。作为全国普及的调查,如此大的题量会给学生造成较大的负担和压力,因此,NAEP采用矩阵取样(matrix sampling)的方法来解决这个问题。矩阵取样主要通 过将测验题目随机平行等分成几个部分,如使用5份试卷,可以将这5份试卷随机分配给抽样出的学生,或者,只需要学生作答其中一部分测验题目(如原题量的1/5),通过减少每个学生作答的测验题目数量来减少测验所需时间,当然,还要保证每个学生作答的题目仍然能够广泛覆盖各个考点。可见,矩阵取样技术很好地解决了广泛的测试内容和有限的测试时间之间的矛盾。从基本类型上来看,矩阵取样可分为完全矩阵取样和不完全矩阵取样两大类,两者都定位于对群体水平的测查,但后者可通过“锚题或共同题(anchor items)”的设计帮助解决个体之间比较的问题。NAEP采用的是后者,具体称其为均衡的不完全分块设计(Balanced Incomplete Block Design,BIB),如图1所示。左侧图表示将整个题库分成5个等分,如5份考卷,考生随机抽取其中一份作答;右侧表格详细表示每份考卷( book)的组成。假设将题库分成7个题册(,booklet).用这7个题册组成7份考卷,其中每份考卷由3个分块( blocking)组成,每份考卷的每个分块对应7个题册中的任何一个。虽然每份考卷各不相同,但是各考卷之间都有重叠,如图1右侧表格所示,第1份考卷与第2份考卷都包括第2个题册,第2份考卷和第3份考卷都包括第3个题册。这样就有足够的锚题或共同题将不同的考卷进行等值变换( equating)。如果详细观察右侧表格中的每一列,我们可以发现,每个分块都涵盖了7个题册,也就是7个题册在所有考卷中出现的次数相同,都出现了3次,这就体现了BIB设计的均衡性。而BIB设计中的非完整性就体现在每个考卷仅仅是所有题目的一部分(如该例子中的3/7)。
采用恰当的矩阵取样技术,在对广泛的测评内容进行梳理和结构化整理的基础上,可以在不增加测验管理成本的前提下,实现对群体水平的准确、全面考察,这对我国教育质量监测工作的开展具有重大的方法学意义。因此,BIB设计也是中国教育进展评估可以借鉴的一个部分。
2.对二次数据分析的质疑
NAEP的内容单维结构和BIB设计的局限,决定了NAEP的计分要采用Imputation的方法。具体来说,这是因为NAEP的总题量很大,每个学生只回答相应一部分题目(以控制考试时间),而Imputa-tion能根据被试的答题情况和所有背景信息构造一个大的模型,从模型中估计出被试的能力或者得分的后验分布,并能从该分布中取随机数作为被试的最后得分,也成为似乎合理的得分( plausiblescores)。这种计分方式被称为二次数据分析(sec-ondary data analysis)。但是,它的准确牲和可信度受到一些学者的质疑。而且,由于NAEP被试的得分不取决于他或她的答题情况,而是一个随机数,这引起了广大美国公众的不解。也正是由于使用Imputa-tion方法,被试得到的分数并不反映他们的真实能力水平,所以美国NAEP并不公布每个参与评估个体的成绩,而是基于样本报告结果。这在某种程度上也降低了学生和学校参与评估的积极性。
此外,在美国NAEP的数学考试中,5个考试内 容被认为是5个不同的单一维度,即整个数学考试呈现五维的结构,而最后的考试结果却需要对每个维度进行估计,这样一来,NAEP就存在一个问题:因为BIB设计,每个维度上的题目量大大减少,对每个维度的估计就存在较大的误差;同时,对于五维结构,题目参数的估计以及相关软件的维护也会存在一定的困难。
二、中国教育进展评估的发展方向
1.内容均衡设计
以往的研究表明,数学就其本身而言呈现基本的单维结构( essential unidimensional structure),所以以内容为单位将其分为5个维度意义并不大,反而会增加参数估计的复杂度和能力估计的误差。同时,也正因为采用内容单维的设计,在控制题量的同时,造成了分数估计的困难,因而使用了Imputation迸行估计。但是,Imputation也带来了许多问题,为了克服这些问题,我们主张“科目单维”。对于数学考试而言,我们仍然可以用单维的项目反应理论模型,如三参数逻辑斯蒂克模型( Three Parameter Lo-gistic Model, 3PLM)和等级反应模型(Graded Re-sponse Mc,deI,CRM)对题目参数和被试能力进行估计。而不同的内容则作为考试的设计指标,对现有题库按各个内容比例抽取相应题目组成考卷,这既能保证题目参数估计的准确性,同时也能满足考卷覆盖各个考点的要求。当然,这种设计需要成熟的组卷技术,目前盛为流行的影子题库0-1组卷技术[1]以及抽样分层组卷技术[2]均为较好的选择。
同时,中国的NAEP可以适当增加题量,以保证考卷的信度和效度。事实上,美国NAEP作为全国性的普及调查考试,成绩并不直接反馈给学生、教师或者家长,而是通过计算样本的平均值来监测整个群体的成绩水平,因此,对于学生甚至学校而言,参与NAEP调查并没有带来直接的利益。基于上述缺陷,中国的NAEP可采用不同的激励机制,如将考试成绩反馈给学生本人,让他们对自己目前的学习水平有所了解以便自我提高。只有这样,学生或者学校才会更加主动地参与NAEP考试。
2.计算机化自适应考试
随着计算机和网络技术的发展与普及,计算机化自适应考试( Computerized Adaptive Testing,CAT)的应用越来越广泛。这种形式可以相对减少考试各环节的人为主观因素,能更快速、更客观、更安全地组织考试工作,并把教师从繁重的组卷、评卷、成绩分析等工作中解放出来。更重要的是,CAT是基于现代测量理论IRT的一种考试方式,具有科学化、“因材施考”等优点,即能针对不同考生的答题情况合理选择后面的出题。同时,考试成绩与所选题目本身无关,能更准确客观地反映考生的实际能力,达到一定测量精度所需要的时间也更短。目前,基于计算机的考试技术已经被广泛地应用于各种学历考试、职称考试、证书考试之中。在美国,虽然白适应考试还没有普及到如K-12的教育考试中,但许多研究者和政客都认为自适应考试将有很大的发展空间。
自适应考试有许多优点。首先,它能够选择与被试能力相匹配的题目,这样就可以避免被试作答过于困难或过于简单的题目,因而保证了自适应考试在与纸笔测验相同题量的情况下能达到更高的准确度。事实上,考题过难除了会影响考生能力的准确估计外,还会造成考试焦虑。研究表明,美国各州中小学统一数学考试(纸笔测试)中有700-/0到80%的题目是有一定难度的,成绩较差的学生会由此产生强烈的挫败感,并直接影响他们的答题结果。单从这一点来说,白适应考试就优于传统的纸笔测试。另外,自适应考试还能提高考试的安全性。在传统的纸笔测试中,所有的考生作答完全相同的考卷或使用A、B卷的模式,试卷量非常有限。为了避免作弊情况的发生,现场的监考老师需要具备敏锐的洞察力和丰富的经验。即使是这样,如今的高科技也防不胜防。而计算机化自适应考试相比较而言就安全许多,因为被试作答的每一个题目都来自题库,被试只有记住题库中所有的题目才有可能作弊,而记住整个题库的答案对于一般考生来说不太可能。Chang&Zhang就CAT中作弊的可能性进行了理论探讨,他们认为:只要题库足够大,选题方法适当,完全有可能降低作弊的概率。[3]自适应考试自产生、发展到现在,已经相当成熟,并有许多不同的选题方法可供选择,如最大费舍尔信息量(Maximum Fisher Information)、最大库尔贝克一莱布勒信息量(Maxi-mum Kullback-Leibler Information)、[4]最小估计误差法、[5]a-参数分层法,[6]等等。
此外,采用CAT测验方式,我们可以通过控制题库的质量和选题方法,来监控考试的质量以及从考卷中获得的信息。目前,教育考试的目的除了得到一个总分之外,教师和家长还想知道更为详细的关于学生对各知识点掌握程度的信息。美国西北测量公司( Northwest Evaluation Association,NWEA)就推出了学业进展测评(Measures of Academic Progress,MAP),并已用于美国近四百万的学生中,受到了学校和教师的一致好评。MAP是一种计算机化白适应考试,在给出总成绩(goal performance score)的同时,还能给出学生在各相关知识点的得分( sub-scale score),从而为教师和学生提供一定的诊断信息。事实上,诊断信息在教育考试中极为重要,它有利于教师补救教学,帮助学生进一步提高。然而,MAP所提供的诊断信息仅仅是在自适应考试结束之后,通过计算考生在各个知识点下答对的题目数而得到的。虽然这种简单的求和在一定程度上来说是有效的,但我们认为中国的NAEP不能仅止于此,而应该是基于现代认知诊断测量模型的,只有这样,得到的分数才能有利于进一步在不同考卷之间进行匹配和等值变换( sCaling,linking&equat-ing)。同时,如果能够将诊断信息这一目的融入到自适应的选题过程中,即选题时既要考虑到匹配被试当前的总体能力,又要使诊断信息最大化,就能得到更精确的诊断结果。
3. 认知诊断
随着测量理论的发展,认知诊断成为当今心理 和教育测量学研究中一个备受关注的研究方向。在 教育教学领域中,认知诊断(Cognitive Diagnosis, CD)是指根据被试是否掌握测验所测的技能或属性 来对被试加以分类。它是测验理论自身发展的产物, 也是社会尤其是教育领域要求测验提供更多信息的 结果。传统的测验只报告被试的成绩,然而教师和 学生都希望深入了解学生对各个知识点的详细掌握 程度,从而改进教学。事实上,NAEP 的本意并不是 要将被试按照能力进行排序,而是希望通过广泛的 调查,了解学生的不足之处,进而因材施教。从这个 角度来说,认知诊断极为重要,同时,它也是美国 NAEP 所缺乏的。 为了有效地进行认知诊断,各种认知诊断模型 (Cognitive Diagnostic Models,CDM)应运而生,至今 已有近二十种。每种诊断模型都有其适用范围及优 缺点。比较有代表性的有规则空间模型(Rule Space Model,RSM)、目前广为应用的确定输入-噪声“与” 门(Deterministic Inputs,Noisy“and ”Gate,DINA)模 型、统一模型(Unified Model)和融合模型(Fusion Model)(e.g. see Hartz,2002;Hartz,Roussos,& Stout, 2002)。这些模型主要由两部分组成,一是 Q-矩阵, 一是判别分类。认知诊断模型认为每道题目以及整 个考卷主要测量了几种不同的属性。Q-矩阵主要将 题目与属性联系起来,用于表示答对每道题所需要 的不同属性。它既可呈现简单的线性平行关系(即所有属性之间相互独立),又可呈现层级关系(即要 掌握某些属性必须先掌握其他属性)。不同模型的 差异主要在于判别分类方法的不同,也即 Q-矩阵、 被试的能力状况与被试作答情况的数学表达式不 同。因此,研究者可以根据不同的假设和需要选取相 应的模型。当选定一个具体的认知诊断模型后,通过 该模型来拟合学生考试的答题状况,可以得到每个学 生在各个属性(包括知识点等)上的掌握情况。 认知诊断的优势在于能够揭示每个被试的具体 认知状况,有助于进一步有效地、有针对性地对个体 进行补救;认知诊断模型则有助于诊断被试对每个属 性的掌握情况。计算机化自适应考试作为测验形式发 展的一个重要方向,若能发展相应的认知诊断技术, 以便及时诊断与评价,将会进一步提高测验所提供信 息的效用性。目前,基于认知诊断的 CAT(CD-CAT), 许多学者提出了相应的选题方法,如香农熵(Shannon Entropy)法、 [7]最大 KL 信息量法、 [8]最大 KL 信息量结 合属性间平衡法(Cheng & Chang,2007),以及最大后 验加权KL信息量法(Cheng,2009),等等。 为了将这一技术用于实践,教育部基础教育司 组织北京师范大学、江西师范大学和中央教育科学 研究所等一批学者也进行了类似的大型考试调研工 作。他们以数学和英语考试为切入点,以考察学生 对核心知识、技能的理解和掌握为重点进行命题。 命题也是基于专家确定的认知属性和属性间的层级 结构(即 Q-矩阵),然后选取具有代表性的学生进行 初测,并听取他们的口头报告,以最终确定 Q-矩阵 的结构以及 325 道质量严格控制的考题。为了对考 题的参数(包括 3PLM 中的题目难度、区分度、猜测 度,以及 DINA 模型的参数,如失误和猜测参数)进 行估计,他们将 352 道题分成 13 份试卷进行测试, 并将其中的 1 套定为锚卷,用以对不同考卷的参数 进行等值化处理(具体设计详见图 2)。 锚卷是命 题教师从 352 道试题中选择自己认为质量好且内容 分布好的 36 道试题组合而成。 这 13 套考卷分别在山东、湖北、甘肃、宁夏四个 省区施测,最终收集到 38722 个有效的被试数据。 根据参数估计的结果以及专家的讨论,研究者们调 整了 Q-矩阵,并重新进行参数估计,直到结果满意 为止(Liu et.al,2009)。有了优质题库,下一步就是进 行 CAT 的测验。他们采用香农熵方法进行 CAT 选题,并同时考虑到内容均衡和题组的限制,在经过大 规模计算机模拟得到理想的结果之后,于 2009 年 7 月在北京地区选取了具有代表性的学校进行计算机 在线测试。根据测验结果,研究者对 CD-CAT 的效 度进行了全面审视。效度验证指标主要包括判定一 致性和预测准确性。前者是指教师根据学生作答情 况评定的属性掌握状况和 CD-CAT 所得结果的相似 性;后者是指熟悉学生的教师对学生水平进行判断的 结果和 CD-CAT 结果的相似性。调查结果非常令人 满意。这项调查还为每个参加测试的学生提供了一份 反馈报告,极大地调动了学生参与的积极性,为认知 诊断技术的大规模推广奠定了坚实的基础。 由此可见,CD-CAT 在中国已经展开了广泛的 研究,也取得了满意的阶段性结果,不失为中国教育 进展评估发展的奠基石。但是,我们希望中国教育 进展评估在美国 NAEP 的基础上加入认知诊断的元 素,即理想的 CAT 系统选题是既能够匹配被试的综 合能力水平,又能保证准确的知识状态的诊断。要 同时满足这个双重目的,CAT 选题就有了新的难 度。有学者提出了基于影子题库的选题方法,将影子 题库作为桥梁以保证选题能同时满足这个双重目的。 他们将这一方法用于计算机模拟题库和真实的考试 题库中,都得到了理想的效果。除此之外,许多研究者 也提出了其他方案,如双重信息法(dual-informa- tion)、Wang,Chang & Douglas(submitted)的基于加权 的选题法,等等。这些方法都可以进一步用于实践中, 以找到适合中国教育进展评估的有效方法。
三、中国教育进展评估的改进与展望
在评价目的上,作为全国教育报告卡,美国 NAEP 不是指导教师如何进行教学,而是向公众、政策制定者和教育者提供学生在各个学科方面能力的 描述性信息。如若中国政府决定原封不动引进美国 NAEP 考试,则需要借鉴美国调研的理念,即不得事 先对学生进行考前培训,只有这样,才能保证评估到 的是学生真实的能力水平。如果某些地方为了局部 地区达标而违背这一原则,就会使这项全国性的评 估失去意义。因此,中国教育进展评估的制定应根 据中国国情,并且同时考虑美国 NAEP 在测量学上 的局限而采取相应的改进措施。 首先,为了提高学校和学生的参与积极性,我们 希望在提供同样的描述性信息之外,还同时提供学 生个体的学习进展情况,以帮助个体和学校整体提 高。这就是在中国教育进展评估中加入认知诊断的 原因之一。 其次,在评价工具的设计上,美国 NAEP 通过对 全国的学校进行分层抽样,测量学生的成绩,并用矩 阵中的 BIB 方法对试题进行设计,将试题分成很多 小的试卷,分别由不同的社区、地区、州的学生来完 成,每个学生完成的题目数量有严格的限定。这种 设计值得中国借鉴。同时,我们也提出了全新的测 试方法即计算机自适应测验,以保证在相同题量的 情况下达到更高的准确度,又能免于繁琐的组卷过 程。通过对选题方法的严格设计,我们不仅能确保 每个被试得到的试卷能覆盖各个考点,还能保证被 试能力的准确估计和认知诊断信息的最大化。这是 我国 NAEP 创新于美国 NAEP 之处。 此外,美国 NAEP 评价的内容既包括对学生在 数学、阅读、写作、历史、科学等学科学业水平发展趋 势的分析,又包括对影响学生能力发展各种因素的 大规模调查。这些因素包括学校教育情况、家庭教 育背景等,调查的对象包括学生、教师、校长和家长。 通过了解这些背景信息与学生学业水平和成就水平 的相关,NAEP 就可以为公众、政策制定者提供更全 面的信息。这也是我国可以学习和效仿美国 NAEP 的地方。但是,美国是个多种族国家,背景调查相对 我国而言要复杂很多,因此,中国教育进展评估在制 定相关背景因素时,要考虑到中国的人口组成,从而 制定有中国特色的问卷调查。
原文:
张华华,王纯. 美国教育进展评估带给我们什么启示[J]. 教育测量与评价(理论版),2010,02:4-9.
转自:评价者 2016-05-18 评价者



雷达卡





我的个人感悟哈:
[em17][em17]
京公网安备 11010802022788号







