【转发】【年会演讲】严文蕃:多元化评价——中美比较的视角
12月2日,在中国教育三十人论坛第五届年会暨重构教育评价体系高峰论坛上,严文蕃教授以《多元化评价:中美比较的视角》为主题进行了发言。
他在美国高校任教多年,对中美两国的教育有着充分且深入的了解。在发言中,他就中美教育评价与政策分析进行了深入解读。
以下为演讲全文(有增补):
多元化评价:中美比较的视角
多元化评价主要是针对教育部办公厅关于开展清理“唯论文、唯帽子、唯职称、唯学历、唯奖项”专项行动中提到的“五个唯一”[1],这种单一评价的问题现在已经非常明显,所以,我们现在强调多元评价。之所以选择中美比较的视角,因为比较也是一种评价。比较分两种,一种是诊断性评价,按照一些指标找出两者的优劣,比如中国教育好还是美国教育好,中国强还是美国强;另一种是发展性评价,发现各自的特点,互相取长补短,我们选择的是后者。
一、评价的三个相关概念
首先,我们需要明确一些和评价有关的基本概念,作为比较的前提。在很多情况下,中国讲的评价概念和美国讲的评价概念不同。在英语里与教育评价相关的三个概念是:Testing,Assessment and Evaluation。Testing,就是我们所说的考核和考试;另外一个Assessment,就是我们讲的各种能力的测评。美国有三个权威的教育组织,分别是美国教育研究会(AERA)、美国心理学会(APA)、美国教育测量全国理事会(NCME),它们联合制定了《教育与心理测试标准》,每过一段时间就更新一版。这三个组织将Testing界定为:通过一种系统的方法,获取有关人或项目的样本信息,从而推断出学生的知识、特征或倾向。(American EducationalResearch Association [AERA], AmericanPsychological Association [APA], & National Council on Measurement inEducation [NCME], 1985, 1999, 2014)[2]。评价(Evaluation)更多的是对于教育干预效果的测定,小到教师课堂上使用的教学策略,比如针对学业落后学生的各种补救措施;大到整个国家的教育政策,比如《让每个学生都成功法案》(The Every Student Succeeds Act ),对每个教育政策和干预措施的效果,都进行了及时的评价。
2018年“中国教育三十人论坛”的三个主题是在一个大的评价范畴里,但分属于不同的概念。“新高考改革”主要关心学生的学业成绩,属于Testing的范畴;“创新能力培养”关注学生的综合能力测评,属于Assessment的范畴;“大学排名”关注大学教育质量,属于Evaluation的范畴。
总结一下,三个概念之间是相互联系的,一环套一环,如图1所示。如果要做评价,缺不了考试这个工具收集证据,测评是各项考试的综合,整合多方面的证据才能支持有效的评价。所以,一个完整的教育评价过程包括考试、测评和评价三个阶段。
评价最大的优势在于对教育走过的任何一步,从小到大,都可以搜集材料、特征和结果,以这些资料作为证据来做判断的过程就是评价。评价有三个基本要素,分别是判断、标准、利益相关者。不管考试也好,测评也好,都要对搜集的数据和结果做出判断,给出结论,不论好坏、高低、合格与否。那么依据什么做出判断就很重要,所以需要评价标准,这就牵扯价值观的问题,评价的很多争议就是因为价值观不同。另外,任何评价都有相关联的人,即利益相关者。为什么教育评价争议那么多?因为相关的利益群体太多了,个体差异很大,时间和资源有限,很难同时满足各方的利益诉求。教育评价必须明确利益相关者,评价到底为谁说话。
在美国,目前教育工作关心3个“C”。一个是上大学(College)的问题,一个是工作(Career)的问题,第三个就是公民(Civic)的问题,评价也是为这3个“C”服务的。
讲到考试,美国人对中国人佩服得很。我八十年代到美国读博士,上评价和测量课时,老师开门见山就讲中国考试历史。中国2300多年前就用科举制度选拔人才,科举就是考试,朝代更迭,这种考试制度一直没改变过。直到1905年,民国革命把它废除了。最有意思的是,正是中国摒弃科举考试的时候,外国人刚刚开始尝试用考试选拔人才,并且不断发展,越用越好。1923年,美国第一个斯坦福成就测验(Stanford Achievement Test)出版,更早的教材《教育测量》(桑代克,1904)则成了现代教育测量史上的一个里程碑。
美国考试走过的路跟中国也不同。美国上个世纪30年代时开始做SAT,50年代开始做区一级的标准化考试,70年代时开始做州一级的标准化考试,80年代时扩大到全国考试,90年代后开始做国际考核。总之,SAT到现在八十多年,形式和内容基本上没有改变过,就是又加入了一些写作(Essay)的题目。考试的趋势是范围越来越大。中国走的路跟它有点相反。中国的起点是国家统一考试,然后逐渐放权到省和市。当然二者教育背景不同,没有好坏之分,都是为了更好地完善考试制度,为学生发展服务。
在教育评价的功能方面,就美国而言,当前问责是其主要功能。举个例子:美国最大的教育法案——《不让一个孩子落后法案》(No Child Left Behind Act,简称NCLB),就是以考试结果作为问责的依据。美国没有办法做到全国统考,尽管也很想像中国一样有一个全国统考。美国也有一个全国性的统一考试,即“全国教育进步测试”(National Assessment of Educational Progress),简称NAEP,用以检测和对比各州的教育质量。但这个测试是抽样进行,不是每个孩子都参加。根据NCLB法律要求,各州层面开发了州的统一考试,所有学生都要参加。以麻州为例就是“麻州综合评估系统”(Massachusetts Comprehensive Assessment System),简称MCAS。根据他们的测评结果,麻州的地区学校被列为五个“问责和援助”级别。1级学校表现最好;2级为合格; 3级和4级的学校可获得额外支持,有改进机会;5级学校被认定为“长期表现不佳”,这些学校将由麻州基础教育部接管。
从上图可以看到,实行问责制度后,1级和2级的学校,即合格学校的数量是逐年增加的,3级和4级需要改进的学校逐渐减少,可见通过问责可在一定程度上提高教育质量。同时,这种评价也是实现教育公平的重要手段。原来考核不合格的学校多是弱势群体学生集中的学校,通过考核问责,这些学校被迫提高了学生的学业成绩和教育质量。
关于提升学生的学业成绩,实际上中国很多经验。中国最传统的教育就是直接教学法,又称“掌握学习”。研究表明,直接教学法对于提升考试成绩非常有效[4]。2012年上海在PISA测评中取得第一名之后,英国人来上海学习,把中国的这套教学模式,总结为“掌握学习模式”,请中国的老师到英国去教学。我们一些好的考试的东西是值得重视的。
接下来再以考试为例,来看看中国和美国的差异。我们以一张示意图,把中美学生考试在评价中的权重按学习阶段(幼儿园、小学、初中、高中、大学、硕士、博士,依次用字母K、E、M、H、U、P、D来表示)做了一个函数分布图。
看中国学生的这条曲线,经过各级考试、考核,逐年加码,到了高中达到顶峰,但大学后却降下来,随后呈现缓慢下降的趋势。反观美国,美国这条线一直比中国低,在高中之前一直是低的,一到大学以后分杈了,出现了剪刀差。从这个简单的模式表达就可以理解,为什么中国高等教育大家不满意。其中,考试没有严格执行或者效果没有充分发挥是原因之一。而美国,恰恰相反,一直往上走的,直到到博士生阶段。体现了考评要符合人的发展规律。这条线逐渐往上走,说明你的年龄逐渐增长,对你的考试要求、对你的责任心要求也应该逐渐提高。
二、科学化的教育评价设计
下面我们对中美在评价方面的研究做一个大概的探索性比较。我们选择了8本中国权威的教育类综合期刊(《教育研究》《高等教育研究》《北京大学教育评论》《清华大学教育研究》《中国高教研究》《教育与经济》《比较教育研究》《电化教育研究》),筛选出近三年有关评价的论文。想通过这些研究论文,看看中国教育评价在评什么?怎么做评价的?重点在哪里?初步研究发现,中国的很多研究大多数都是做评价理论的探索,理论框架的构建,以及理论引进后怎么运用。美国的评价研究主要解决实际教育问题,从学生层面、教师层面、学校层面一直到国家层面,考察每一个教育政策和干预对学生的实施效果如何,更多的是实证研究。初步看下来,我个人认为《北京大学教育评论》的范式很像美国杂志的风格,还有《教育与经济》中很多研究与美国的政策评价相似。值得引起注意的是《电化教育研究》,做了不少课堂和学生层面干预效果的实证研究。
美国有一个专门为教育评价服务的杂志——《教育评价与政策分析》(Educational Evaluation And Policy Analysis),是美国的教育评价最权威的杂志。如果按照杂志的引用率和影响因子排名,它在教育类中排名第9位[5]。
我一共选了近三年来的81篇实证论文,来分析美国当前的教育评价。
根据这些文章我们想讨论与教育评价科学化有关的三个问题:一个是评价的核心问题,到底是重质量,还是重公平?第二是评价的两个主要功能:问责和改进;第三,评价的科学方法。
(一)评什么:质量与公平
美国的教育评价更重视干预的结果。我们有一个很生动的类比:不在意鸟妈妈给小鸟吃了多少虫,最关键看最后这只小鸟什么时候飞起来,飞多高?评价就是要看最后学生能做什么,他的能力到底达到什么水平?另外,评价为政策服务,就是为教育公平服务。国家资助的项目,就是要看对教育公平起了多大作用。政策干预就是干预学习机会,特别对弱势群体的效果如何,这是评价重点关心的对象。他们主要包括:移民学生、西班牙裔学生、黑人学生、英语非母语的学生、特殊教育的学生、来自低收入家庭的学生、学业成就低的学生、女学生等。
根据这81篇论文来看,当前美国评价的内容有:NCLB执行效果的深入评价和持续问责[6]、弱势群体学生数学成绩的提升[7], [8]、低收入家庭学生大学入学机会[9]、校园突发事件对学生学业成绩的影响[10]等,这些文章也反应了美国教育评价中存在的两个钟摆现象。一是质量和公平之间的平衡,另一个是知识和能力之间的均衡。
(二)为什么评:改进与问责
美国教育评价有两个主要功能,一个是问责,二个是改进。我们对81篇论文进了分析,得出59%的评价研究是关于完善政策和干预措施的,32%的评价研究是关于问责,其他9%的评价研究旨在引起政府关注、加强管理。例如:Douglas Lee Lauen和S. Michael Gaddis用北卡罗来纳州学生的数学和阅读成绩对NCLB进行评价,结论之一是NCLB问责最差的学校对成绩较差学生的不利影响最大[11]。Brian Jacob等学者对密歇根优秀课程(MMC)的效果进行了问责,这是一个全州范围的大学预科课程,适用于2011年及以后的高中毕业班,他们的分析表明,MMC所包含的较高期望对学生的学习成绩影响不大[12]。
教育评价的问责和改进经常是同时进行的。《每个学生都成功法案》(The Every Student successAct)要求各州找出陷入困境的学校,通过制定以证据为基础的资助政策,将其扭转过来。Beth E.Schueler等学者评价了麻州一个区的公立学校(Massachusetts’s LawrencePublic Schools)的整体转变。他们研究发现,那些需要改进的学校在数学和阅读方面取得了一定的进展,但没有证据表明这种转变会对高中生的成绩进步产生积极影响。建议在假期期间进行密集的小团体教学,此举可能会为参与的学生带来特别大的成就[13]。
(三)怎么评:科学化设计
根据我们选出来的这些文章可以看出,美国教育评价的科学化设计有两个特点:第一,美国所有教育干预都要做到长期跟踪,如果不是长期跟踪,这个所谓的教育效果都不能建立。因为教育具有滞后性,它的效果需要在学生使用这些学习经验时才能显现,所以必须长期跟踪。第二,强调使用实验方法。实验法分为随机实验(Random experiment)和准实验法(Quasi-experiment)。常用的准实验研究设计有如下几种:标准或目标比较、等组对照、统计控制(前测和后测或只后测)、统计控制——后测控制组设计、其他前测——后测控制组设计、其他后测,以及仅从单个受试者设计中选取对照组的设计。
随机实验(Random experiment)将研究对象随机分组,对不同组实施不同的干预,以对照效果的不同。具有能够最大程度地避免实验设计、实施中可能出现的各种偏倚,平衡混杂因素,提高统计学检验的有效性等诸多优点,被公认为是评价干预措施的金标准。例如:经济资助被认为是促进大学成功的一种方式,就是尽量减少学生工作的时间。Katharine M. Broton等学者利用一项随机实验发现,来自威斯康星州低收入家庭的学生获得额外助学金后,每周工作时间和工作时间分别比同类学生分别减少8.56%和14.35%,赠款援助可以改善学生的学术成绩和发展前景[14]。
Kathleen Lynch 和James S. Kim在一个大的、高贫困的城市公立学区进行了一个暑期数学项目的随机实验,三到九年级的孩子(N = 263)被随机分配到一个提供在线夏季数学课程的小组或对照组;实验表明,实验组学生暑假数学学习活动参与度高于对照组,但远期学业成绩上没有明显差异[15]。
由于教育实验对象是学生,要符合伦理原则,因此很难严格控制所有无关变量,常常采用准实验法(Quasi-experiment),即在实验中未按随机原则来选择和分配被试,只把已有的研究对象作为被试,且只对无关变量作尽可能控制的实验。我们选择的文献中,此类研究较多。例如:MelindaAdnot等学者应用准实验设计,评价哥伦比亚特区公立学校(DCPS)独特的绩效评估和激励制度下教师流动对学生成绩的影响,以讨论教师流动对学生学习成绩的影响。他们发现,平均而言,DCPS的绩效评估制度让学生的数学成绩提高了0.08个标准差(SD),而且在统计学上显著[16]。
Dennis A. Kramer II等学者设计了一个准实验,评价国家在学生完成学业和债务结果中所采用的超额学分(ECH)政策,他们发现很少有证据表明高科技政策对学生完成学业有积极影响,反而,从统计数据来看,采用高科技政策会增加中等学生的债务,来自社会边缘背景人群似乎最容易受到高科技政策的不利影响[17]。
还有一些评价使用了混合方法(mixed-methods)。 E.N. Bridwell-Mitchell和 David G. Sherer对三所城市公立学校117名教师的纵向混合方法研究表明,在政策执行中,教师如何解释政策是至关重要的,而文化是促成教师对政策解释的重要基础[18]。
不管哪个评价模型,评价最核心的就是提供证据。不是拍脑袋,而是以证据为主。什么才是证据呢?美国教育研究院按照是否用比较、对比的科学研究方法,是否有真正的控制组和实验组,是否随机,是否处理一致,是否能复制等标准提出什么算“证据”,什么算“可能的证据”,什么算根本“没有证据”(详见表1)。
干预的效果可以用效应量(Effect Size)来表达,效应量越大说明效果越好。在心理学研究中一般认为,效应量d="0.2为效果小,d=0.5为中等,d=0.8为效果大(Cohen," 1977,1988)[19]。在教育学研究中一般认为,d="0.25为可接受效应量(Tallmadge," 1977; Lipsey etal.2012)[20]。
影响效应量的因素包括:干预的时间、参与者数量、开始时间(在学前班或幼稚园、一年级或以上)、结束时间(从干预结束到评价之间的时间间隔)、干预主题(阅读、数学、语言、拼写、其他科目)等。中国学者在评价设计中要注意控制好这些因素,最大程度地提高效应量。
三、结论与建议
最后,提几个建议。我觉得美国的东西要批判性地借鉴,比如美国每一个教育干预都给予及时评价,换句话说就是干预和评价同时进行,不是只干预不评价,或者等干预完了再做评价。而且这种评价要多层次、多方面的,不是都等着教育部派专家去评。再比如,有些教育问题是中美共存的,美国的经验或者教训可以借鉴,比如说能力分班,美国已经做了半个多世纪的探索和研究,并对每一种干预都进行了评价[21],我们在做这个这方面的评价时,可以借鉴美国的评价结果。
科学化方面,我们还想提两个建议。一是评价人才队伍建设,首先,评价专家要兼有基础研究和应用研究的经验;其次,要专门培养教育政策评价方向的研究生。另一个方面是要重视实证研究,建议从建立教育数据库开始。美国的数据库优势是有目共睹的,数据详实、及时更新,而且,美国国家教育统计中心(NCES)的数据库是公开的 ,很多大学、学区的数据库也都可以共享。美国大部分评价论文中都有一个关键词叫“二手数据分析(Secondary Data Analysis)”,这背后就是强大的数据库做支撑。最后,还有学术期刊的问题,创办一本权威的、国际化的教育评价期刊,一方面有利于集中中国教育评价的成果,同时也有利于国际交流,与其他国家共同分享我们的研究成果。
来源:中国三十人论坛第五届年会现场演讲整理http://url.cn/5CfQMBU
终审:0