bwin·必赢(中国)唯一官方网站

　　12月2日，在中国教育三十人论坛第五届年会暨重构教育评价体系高峰论坛上，严文蕃教授以《多元化评价：中美比较的视角》为主题进行了发言。

　　他在美国高校任教多年，对中美两国的教育有着充分且深入的了解。在发言中，他就中美教育评价与政策分析进行了深入解读。

　　以下为演讲全文（有增补）：

　　多元化评价：中美比较的视角

　　多元化评价主要是针对教育部办公厅关于开展清理“唯论文、唯帽子、唯职称、唯学历、唯奖项”专项行动中提到的“五个唯一”[1]，这种单一评价的问题现在已经非常明显，所以，我们现在强调多元评价。之所以选择中美比较的视角，因为比较也是一种评价。比较分两种，一种是诊断性评价，按照一些指标找出两者的优劣，比如中国教育好还是美国教育好，中国强还是美国强；另一种是发展性评价，发现各自的特点，互相取长补短，我们选择的是后者。

　　一、评价的三个相关概念

　　首先，我们需要明确一些和评价有关的基本概念，作为比较的前提。在很多情况下，中国讲的评价概念和美国讲的评价概念不同。在英语里与教育评价相关的三个概念是：Testing，Assessment and Evaluation。Testing，就是我们所说的考核和考试；另外一个Assessment，就是我们讲的各种能力的测评。美国有三个权威的教育组织，分别是美国教育研究会（AERA）、美国心理学会（APA）、美国教育测量全国理事会（NCME），它们联合制定了《教育与心理测试标准》，每过一段时间就更新一版。这三个组织将Testing界定为：通过一种系统的方法，获取有关人或项目的样本信息，从而推断出学生的知识、特征或倾向。(American EducationalResearch Association [AERA], AmericanPsychological Association [APA], & National Council on Measurement inEducation [NCME], 1985, 1999, 2014)[2]。评价（Evaluation）更多的是对于教育干预效果的测定，小到教师课堂上使用的教学策略，比如针对学业落后学生的各种补救措施；大到整个国家的教育政策，比如《让每个学生都成功法案》（The Every Student Succeeds Act ），对每个教育政策和干预措施的效果，都进行了及时的评价。

　　2018年“中国教育三十人论坛”的三个主题是在一个大的评价范畴里，但分属于不同的概念。“新高考改革”主要关心学生的学业成绩，属于Testing的范畴；“创新能力培养”关注学生的综合能力测评，属于Assessment的范畴；“大学排名”关注大学教育质量，属于Evaluation的范畴。

　　总结一下，三个概念之间是相互联系的，一环套一环，如图1所示。如果要做评价，缺不了考试这个工具收集证据，测评是各项考试的综合，整合多方面的证据才能支持有效的评价。所以，一个完整的教育评价过程包括考试、测评和评价三个阶段。

　　评价最大的优势在于对教育走过的任何一步，从小到大，都可以搜集材料、特征和结果，以这些资料作为证据来做判断的过程就是评价。评价有三个基本要素，分别是判断、标准、利益相关者。不管考试也好，测评也好，都要对搜集的数据和结果做出判断，给出结论，不论好坏、高低、合格与否。那么依据什么做出判断就很重要，所以需要评价标准，这就牵扯价值观的问题，评价的很多争议就是因为价值观不同。另外，任何评价都有相关联的人，即利益相关者。为什么教育评价争议那么多？因为相关的利益群体太多了，个体差异很大，时间和资源有限，很难同时满足各方的利益诉求。教育评价必须明确利益相关者，评价到底为谁说话。

　　在美国，目前教育工作关心3个“C”。一个是上大学（College）的问题，一个是工作（Career）的问题，第三个就是公民(Civic)的问题，评价也是为这3个“C”服务的。

　　讲到考试，美国人对中国人佩服得很。我八十年代到美国读博士，上评价和测量课时，老师开门见山就讲中国考试历史。中国2300多年前就用科举制度选拔人才，科举就是考试，朝代更迭，这种考试制度一直没改变过。直到1905年，民国革命把它废除了。最有意思的是，正是中国摒弃科举考试的时候，外国人刚刚开始尝试用考试选拔人才，并且不断发展，越用越好。1923年，美国第一个斯坦福成就测验（Stanford Achievement Test）出版，更早的教材《教育测量》（桑代克，1904）则成了现代教育测量史上的一个里程碑。

　　美国考试走过的路跟中国也不同。美国上个世纪30年代时开始做SAT，50年代开始做区一级的标准化考试，70年代时开始做州一级的标准化考试，80年代时扩大到全国考试，90年代后开始做国际考核。总之，SAT到现在八十多年，形式和内容基本上没有改变过，就是又加入了一些写作（Essay）的题目。考试的趋势是范围越来越大。中国走的路跟它有点相反。中国的起点是国家统一考试，然后逐渐放权到省和市。当然二者教育背景不同，没有好坏之分，都是为了更好地完善考试制度，为学生发展服务。

　　在教育评价的功能方面，就美国而言，当前问责是其主要功能。举个例子：美国最大的教育法案——《不让一个孩子落后法案》（No Child Left Behind Act，简称NCLB），就是以考试结果作为问责的依据。美国没有办法做到全国统考，尽管也很想像中国一样有一个全国统考。美国也有一个全国性的统一考试，即“全国教育进步测试”（National Assessment of Educational Progress），简称NAEP，用以检测和对比各州的教育质量。但这个测试是抽样进行，不是每个孩子都参加。根据NCLB法律要求，各州层面开发了州的统一考试，所有学生都要参加。以麻州为例就是“麻州综合评估系统”（Massachusetts Comprehensive Assessment System），简称MCAS。根据他们的测评结果，麻州的地区学校被列为五个“问责和援助”级别。1级学校表现最好；2级为合格; 3级和4级的学校可获得额外支持，有改进机会；5级学校被认定为“长期表现不佳”，这些学校将由麻州基础教育部接管。

　　从上图可以看到，实行问责制度后，1级和2级的学校，即合格学校的数量是逐年增加的，3级和4级需要改进的学校逐渐减少，可见通过问责可在一定程度上提高教育质量。同时，这种评价也是实现教育公平的重要手段。原来考核不合格的学校多是弱势群体学生集中的学校，通过考核问责，这些学校被迫提高了学生的学业成绩和教育质量。

　　关于提升学生的学业成绩，实际上中国很多经验。中国最传统的教育就是直接教学法，又称“掌握学习”。研究表明，直接教学法对于提升考试成绩非常有效［4］。2012年上海在PISA测评中取得第一名之后，英国人来上海学习，把中国的这套教学模式，总结为“掌握学习模式”，请中国的老师到英国去教学。我们一些好的考试的东西是值得重视的。

　　接下来再以考试为例，来看看中国和美国的差异。我们以一张示意图，把中美学生考试在评价中的权重按学习阶段（幼儿园、小学、初中、高中、大学、硕士、博士，依次用字母K、E、M、H、U、P、D来表示）做了一个函数分布图。

　　看中国学生的这条曲线，经过各级考试、考核，逐年加码，到了高中达到顶峰，但大学后却降下来，随后呈现缓慢下降的趋势。反观美国，美国这条线一直比中国低，在高中之前一直是低的，一到大学以后分杈了，出现了剪刀差。从这个简单的模式表达就可以理解，为什么中国高等教育大家不满意。其中，考试没有严格执行或者效果没有充分发挥是原因之一。而美国，恰恰相反，一直往上走的，直到到博士生阶段。体现了考评要符合人的发展规律。这条线逐渐往上走，说明你的年龄逐渐增长，对你的考试要求、对你的责任心要求也应该逐渐提高。

　　二、科学化的教育评价设计

　　下面我们对中美在评价方面的研究做一个大概的探索性比较。我们选择了8本中国权威的教育类综合期刊（《教育研究》《高等教育研究》《北京大学教育评论》《清华大学教育研究》《中国高教研究》《教育与经济》《比较教育研究》《电化教育研究》），筛选出近三年有关评价的论文。想通过这些研究论文，看看中国教育评价在评什么？怎么做评价的？重点在哪里？初步研究发现，中国的很多研究大多数都是做评价理论的探索，理论框架的构建，以及理论引进后怎么运用。美国的评价研究主要解决实际教育问题，从学生层面、教师层面、学校层面一直到国家层面，考察每一个教育政策和干预对学生的实施效果如何，更多的是实证研究。初步看下来，我个人认为《北京大学教育评论》的范式很像美国杂志的风格，还有《教育与经济》中很多研究与美国的政策评价相似。值得引起注意的是《电化教育研究》，做了不少课堂和学生层面干预效果的实证研究。

　　美国有一个专门为教育评价服务的杂志——《教育评价与政策分析》（Educational Evaluation And Policy Analysis），是美国的教育评价最权威的杂志。如果按照杂志的引用率和影响因子排名，它在教育类中排名第9位[5]。

　　我一共选了近三年来的81篇实证论文，来分析美国当前的教育评价。

　　根据这些文章我们想讨论与教育评价科学化有关的三个问题：一个是评价的核心问题，到底是重质量，还是重公平？第二是评价的两个主要功能：问责和改进；第三，评价的科学方法。

　　（一）评什么：质量与公平

　　美国的教育评价更重视干预的结果。我们有一个很生动的类比：不在意鸟妈妈给小鸟吃了多少虫，最关键看最后这只小鸟什么时候飞起来，飞多高？评价就是要看最后学生能做什么，他的能力到底达到什么水平？另外，评价为政策服务，就是为教育公平服务。国家资助的项目，就是要看对教育公平起了多大作用。政策干预就是干预学习机会，特别对弱势群体的效果如何，这是评价重点关心的对象。他们主要包括：移民学生、西班牙裔学生、黑人学生、英语非母语的学生、特殊教育的学生、来自低收入家庭的学生、学业成就低的学生、女学生等。

　　根据这81篇论文来看，当前美国评价的内容有：NCLB执行效果的深入评价和持续问责[6]、弱势群体学生数学成绩的提升[7], [8]、低收入家庭学生大学入学机会[9]、校园突发事件对学生学业成绩的影响[10]等，这些文章也反应了美国教育评价中存在的两个钟摆现象。一是质量和公平之间的平衡，另一个是知识和能力之间的均衡。

　　（二）为什么评：改进与问责

　　美国教育评价有两个主要功能，一个是问责，二个是改进。我们对81篇论文进了分析，得出59%的评价研究是关于完善政策和干预措施的，32%的评价研究是关于问责，其他9%的评价研究旨在引起政府关注、加强管理。例如：Douglas Lee Lauen和S. Michael Gaddis用北卡罗来纳州学生的数学和阅读成绩对NCLB进行评价，结论之一是NCLB问责最差的学校对成绩较差学生的不利影响最大[11]。Brian Jacob等学者对密歇根优秀课程(MMC)的效果进行了问责，这是一个全州范围的大学预科课程，适用于2011年及以后的高中毕业班，他们的分析表明，MMC所包含的较高期望对学生的学习成绩影响不大[12]。

　　教育评价的问责和改进经常是同时进行的。《每个学生都成功法案》(The Every Student successAct)要求各州找出陷入困境的学校，通过制定以证据为基础的资助政策，将其扭转过来。Beth E.Schueler等学者评价了麻州一个区的公立学校（Massachusetts’s LawrencePublic Schools）的整体转变。他们研究发现，那些需要改进的学校在数学和阅读方面取得了一定的进展，但没有证据表明这种转变会对高中生的成绩进步产生积极影响。建议在假期期间进行密集的小团体教学，此举可能会为参与的学生带来特别大的成就[13]。

　　（三）怎么评：科学化设计

　　根据我们选出来的这些文章可以看出，美国教育评价的科学化设计有两个特点：第一，美国所有教育干预都要做到长期跟踪，如果不是长期跟踪，这个所谓的教育效果都不能建立。因为教育具有滞后性，它的效果需要在学生使用这些学习经验时才能显现，所以必须长期跟踪。第二，强调使用实验方法。实验法分为随机实验（Random experiment）和准实验法（Quasi-experiment）。常用的准实验研究设计有如下几种：标准或目标比较、等组对照、统计控制（前测和后测或只后测）、统计控制——后测控制组设计、其他前测——后测控制组设计、其他后测，以及仅从单个受试者设计中选取对照组的设计。

　　随机实验（Random experiment）将研究对象随机分组，对不同组实施不同的干预，以对照效果的不同。具有能够最大程度地避免实验设计、实施中可能出现的各种偏倚，平衡混杂因素，提高统计学检验的有效性等诸多优点，被公认为是评价干预措施的金标准。例如：经济资助被认为是促进大学成功的一种方式，就是尽量减少学生工作的时间。Katharine M. Broton等学者利用一项随机实验发现，来自威斯康星州低收入家庭的学生获得额外助学金后，每周工作时间和工作时间分别比同类学生分别减少8.56%和14.35%，赠款援助可以改善学生的学术成绩和发展前景[14]。

　　Kathleen Lynch 和James S. Kim在一个大的、高贫困的城市公立学区进行了一个暑期数学项目的随机实验，三到九年级的孩子(N = 263)被随机分配到一个提供在线夏季数学课程的小组或对照组；实验表明，实验组学生暑假数学学习活动参与度高于对照组，但远期学业成绩上没有明显差异[15]。

　　由于教育实验对象是学生，要符合伦理原则，因此很难严格控制所有无关变量，常常采用准实验法（Quasi-experiment），即在实验中未按随机原则来选择和分配被试，只把已有的研究对象作为被试，且只对无关变量作尽可能控制的实验。我们选择的文献中，此类研究较多。例如：MelindaAdnot等学者应用准实验设计，评价哥伦比亚特区公立学校(DCPS)独特的绩效评估和激励制度下教师流动对学生成绩的影响，以讨论教师流动对学生学习成绩的影响。他们发现，平均而言，DCPS的绩效评估制度让学生的数学成绩提高了0.08个标准差(SD)，而且在统计学上显著[16]。

　　Dennis A. Kramer II等学者设计了一个准实验，评价国家在学生完成学业和债务结果中所采用的超额学分(ECH)政策，他们发现很少有证据表明高科技政策对学生完成学业有积极影响，反而，从统计数据来看，采用高科技政策会增加中等学生的债务，来自社会边缘背景人群似乎最容易受到高科技政策的不利影响[17]。

　　还有一些评价使用了混合方法（mixed-methods）。 E.N. Bridwell-Mitchell和 David G. Sherer对三所城市公立学校117名教师的纵向混合方法研究表明，在政策执行中，教师如何解释政策是至关重要的，而文化是促成教师对政策解释的重要基础[18]。

　　不管哪个评价模型，评价最核心的就是提供证据。不是拍脑袋，而是以证据为主。什么才是证据呢？美国教育研究院按照是否用比较、对比的科学研究方法，是否有真正的控制组和实验组，是否随机，是否处理一致，是否能复制等标准提出什么算“证据”，什么算“可能的证据”，什么算根本“没有证据”（详见表1）。

　　干预的效果可以用效应量（Effect Size）来表达，效应量越大说明效果越好。在心理学研究中一般认为，效应量d="0.2为效果小，d=0.5为中等，d=0.8为效果大(Cohen," 1977,1988)[19]。在教育学研究中一般认为，d="0.25为可接受效应量(Tallmadge," 1977; Lipsey etal.2012)[20]。

　　影响效应量的因素包括：干预的时间、参与者数量、开始时间(在学前班或幼稚园、一年级或以上)、结束时间（从干预结束到评价之间的时间间隔）、干预主题（阅读、数学、语言、拼写、其他科目）等。中国学者在评价设计中要注意控制好这些因素，最大程度地提高效应量。

　　三、结论与建议

　　最后，提几个建议。我觉得美国的东西要批判性地借鉴，比如美国每一个教育干预都给予及时评价，换句话说就是干预和评价同时进行，不是只干预不评价，或者等干预完了再做评价。而且这种评价要多层次、多方面的,不是都等着教育部派专家去评。再比如，有些教育问题是中美共存的，美国的经验或者教训可以借鉴，比如说能力分班，美国已经做了半个多世纪的探索和研究，并对每一种干预都进行了评价[21]，我们在做这个这方面的评价时，可以借鉴美国的评价结果。

　　科学化方面，我们还想提两个建议。一是评价人才队伍建设，首先，评价专家要兼有基础研究和应用研究的经验；其次，要专门培养教育政策评价方向的研究生。另一个方面是要重视实证研究，建议从建立教育数据库开始。美国的数据库优势是有目共睹的，数据详实、及时更新，而且，美国国家教育统计中心（NCES）的数据库是公开的，很多大学、学区的数据库也都可以共享。美国大部分评价论文中都有一个关键词叫“二手数据分析（Secondary Data Analysis）”，这背后就是强大的数据库做支撑。最后，还有学术期刊的问题，创办一本权威的、国际化的教育评价期刊，一方面有利于集中中国教育评价的成果，同时也有利于国际交流，与其他国家共同分享我们的研究成果。

来源：中国三十人论坛第五届年会现场演讲整理http://url.cn/5CfQMBU

编辑：0
终审：0

【转发】【年会演讲】严文蕃：多元化评价——中美比较的视角