当前位置：首页 > 论文 > 教育 > 职业教育

基于标准的课程设计：开发表现性评价

来源：岁月联盟作者：朱伟强崔允漷时间：2010-08-17

【摘要】国家颁布的课程标准，作为一种政策力量，规范着课程的实践。新课程提出了建立性评-价的理念。课程设计和教学实践要求用评价来促进学习，评价设计先于教学实施。本文主要讨论设计基于标,准的课程需要思考的第二个问题，开发什么样的学生学业评价。全文在阐述了表现性评价的意涵、特征、类型的基础上，呈现了四种作为表现性评价工具的评分量规，并为开发表现性评价提供了聚焦于学生学习的思考方式和相应的建议。

【关键词】基于标准的课程设计表现性评价量规

新课程针对传统课程评价的局限和不足，提出了建立发展性评价的理念，课程设计和教学实践要求用评价来促进学习，评价设计先于教学实施，那么，如何实践这样的评价?在分解标准、界定目标之后，基于标准的课程设计需要思考的第二个问题是开发表现性评价。当学生已经成功了的时候，我们怎样才能知道?我们如何知道在学生身上是否已实现了预期的课程目标?我们如何证明学生们是否掌握和理解了相关内容?基于标准的课程强调用标准来测定学生应该知道和能做什么，在这样的课程中，评价是一个关键要素。没有评价，教师、家长、学校、管理部门没有办法知道学生的学习是否真的发生，学生也不知道关于标准他们该怎么做。在描述适合基于标准的课程的评价方式之前，我们先来讨论设计评价时教师应当如何思考。

一、像估税员一样思考

以前，当教师设计评价时，他们往往像教师一样思考。如果像教师一样思考，其思考会停留在与实施评价相关的问题上，而不愿去发现测量学习的方法。许多在常规的课程方案中教师描述的评价实际上是优秀的教学活动，而不是评价，因为它们在详细说明评价标准方面是欠缺的，它们是教师考虑到教授而不是评价而被开发出来的。Wiggins和McTighe(1998)鼓励教师在设计评价时要像估税员一样思考(之所以比作“估税员”，是因为这样的人具备以下思维方式，在进行征税工作之前，对应该征收的税额有一个先期的估计)，…思考的关注点集中在发现测量学习的最好的方法上。为了促进这个范式转换，他们提出了几个必须思考的问题。

1．充分地展现学生已经理解或领悟的证据是什么?

像估税员一样思考的教师聚焦于创设一个活动。设计用来决定学生是否已经真正领会了一个概念或主题、还是仅仅拥有一些有关这个主题的肤浅的知识。然而，教师可能对创设一个学生感到有趣的、吸引人的活动更感兴趣。好的评价允许教师测量理解的深度，而不仅仅是事实上的知识。一个评价如果能让教师知道学生是否已经通过有趣的、吸引人的、具有挑战性的方法领会了一个概念，这样的评价就是最有效的评价，因为它也提供给了学生一个达成目标的动机。

2．可能会有什么误解?怎样才能检查出这些误解?

有时候，学生会呈现出拥有某个主题的知识和能解释某种现象，然而，继续追问下去的话，就会显示出学生用来得到结论的逻辑是错误的，学生其实并没有彻底理解这个主题。例如，学生经常从伸展性准备活动开始一次活动，因为他们认为这样可以防止运动损伤，然而，伸展“冷”肌肉效果甚微，而且可能引起肌肉损伤，一个准备活动应该从心肺锻炼活动开始，逐渐提升肌肉的温度，然后再进行伸展练习。如果想要改善柔韧性，伸展练习应该在身体充分地活动开、体温上升以后进行，而不是在开始的时候。

3．怎样辨别谁真正理解了?谁没有完全理解(虽然他们看似理解了)?

好的评价能区别谁知道内容实质、而谁不知道。从表面上看，学生显示出知道了内容实质，然而，当知识一层层地被剥开时，马上就显明谁真正理解了，而谁不知道。好的评价能剥去知识的表层理解而能揭示出对知识的深层理解。完成同一道题目，一个好学生能记住老师的解题步骤出答案来，当解决同类型的另一个问题时，显得有些困难；一个优秀的学生能分析题目给出的条件，学会解决问题的模式，可以策略性地完成任务解决一类问题。

4．什么表现性任务必须镶嵌在单元之中。聚焦教学工作?

教师设计教学单元时，典型的做法是，看哪些内容和活动他们将运用于教学，然后开发能测量学生在这些内容和活动上是否成功的评价。而一个评价者开始于关注学生必须知道和能做什么，然后，据此开发能测量这些结果的评价。在评价决定以后，再确定内容和活动，教授那些想要教的信息，所以，当学生完成评价时，他们将是成功的。

5．对照什么标准才能区分?

评价者往往对判断学生学习水平的评估过程感兴趣，而教师倾向于评价结果，所以他们能给学生一个关于某个单元的成绩等级。虽然向家长报告学生的进展状况是重要的，但这样的进展应该被认真测量，看看是否达成了标准，而不只是成绩等级的一部分。好的评价尝试着去测量的问题是“在学生知道什么和学生应该知道什么才能达成标准之间的缺口是什么?”

上述每一条都建议，当设计评价时，需要摆脱作为一个教师关心的话题，而要像一个估税员一样思考。开发评价时，我们鼓励教师关注怎样使学生积极地投人到学习中并评价学生的学习。

二、表现性评价的意涵

在传统的测试形式中，教师往往只是用评价结果来计算学生的分数等级，没有利用它们做得更多(如提供反馈，促进学习)。对于大多数教师而言，教学的主要任务是覆盖专家给定的材料数量，完成规定的教学内容，而学生的能力和对学习材料的掌握程度是次要的。传统的评价形式主要测量内容知识的数量或学生已经学过的事实性知识。因此，wiggins建议采用基于表现的评价，设计用一个真实的方式来测量学习，让学生完成真实世界的任务。这不仅要求学生知道事实性知识，还要很好地理解概念并应用它们。按照wiggins的说法，测试应当是学生学习中的主要体验，在我们希望学生有能力能做到的领域中，给予学生机会展示他们的学习。

许多学者经常概括地使用表现性评价、基于表现的评价、真实性评价、替代性评价等术语来指代相同的意义。…著名的评价权威指出，“表现性评价是基于对展示技能的过程的观察，或基于对创造的成果的评价。”这样的评价是形成性的，学生可能会在一个方案设计上花费许多天时间，他们有多次机会修整和改进它。因而，能给予学生许多机会来证实他们的学习，最后达到颠峰的评价事件或表现可能是一个日常生活中常见的任务，完成它可以代表对知识整体的精通和掌握。

wiggins和McTighe界定了三种基本的评价类型：测验和、学术讨论、表现性任务和方案策划。评价的类型可以看作是连续的，连续体的左边是客观的考试，这种考试类型只有一个单一正确的答案(如是非、单项选择、配对)，带有太多的教师控制；向右的那些评价，用来评估学生的学习，给予学生许多选择，选择他们希望怎样展示自己对学习的精通和能力；最右边是表现性评价，这样的评价经常会在评价的过程中结合个人的判断，它们不仅评价学生的学习，也被设计来增加学生的学习兴趣，促进学生的学习。教师必须为那些在连续体右边的评价提供和指南，学生则要投入大量的精力，在他们选择怎样完成最后的成果和表现方面有足够的自由。

表现性评价要求学生生成些什么，而不是选择一个答案，它们有两个必要的组成部分：一是要求学生执行的表现任务或练习，二是用以判断结果和表现的评价标准。表现性评价应当是一种观察学生积极地参与到完成某项任务之中的评价，这样的任务经常是一个人在实际现场可能做出的表现或模拟，它代表了学习的目标或标准的成就。表现性评价和教学通常是相互缠绕的，以致于不可能把两者区分开来。因此，要求这样的评价更复杂，涉及到用整合的任务来决定学生是否已经达成了期望的结果或标准。表现的关键因素或维度被称作表现的评价标准，清晰的评价标准对于评价过程来说是本质的、必要的，在基于标准的课程与教学中往往是预先给予学生伴随着评价的评价标准。三、表现性评价的特征和类型表现性评价应当是开放的、复杂的、真实的，遍布于整个课程或单元计划中，它们有足够长的时间跨度，能允许学生彻底地学习如何评价，而不像传统的评价那样，只在单元结束时或学期结束时执行一次。就管理而言，虽然它们要求需要更多的时间，但它们能和教学融合在一起，来提供学生的表现，能给予教师许多新的方法来看到学生的进步和成就。

表现性评价能满足基于标准的课程改革中所界定的许多变革，它有几个与传统的评价相区别的特征，当教师着手于开发表现性评价时，对以下这些特征的彻底理解将有助于你的工作。

·要求呈现有意义的真实性任务，这些任务是作为实地现场的表现而设计的；

·强调高水平的思维和更复杂的学习；

·有清楚明了的评价标准，因此学生都知道他们将被怎样评价；

·评价牢固地镶嵌在课程之中，不能与教学区分；

·要求尽可能地为具体对象展示学生的工作；

·不仅涉及对学习结果的评价，同样还要评价学习的过程。

能用来评估学生学习的表现性评价，是多种多样的，如档案袋、苏格拉底式问题研讨、学生表现展示、毕业展览等。具体地讲，可用成长档案袋、方案策划、观察(教师、自己、同伴)、比赛、事件任务、角色扮演、访谈、小、日志、学习记录等评价类型基于学生的表现进行评价。在某种意义上，有些类型可以被看作是传统的评价形式的变化，例如用作表现性评价的比赛是对技能测试的扩展，这种变化是把传统的测试形式应用到了一个真实的环境中。因为在评价开始之前就明确地表达了评价的标准，所以，每一个基于表现的评价都包含一个量规(评分标准)，据此教师可以评价学习的结果或学生的表现。

四、创编表现性评价的量规

在前面的描述中讨论到，提供给学生的表现性评价需要有一个评价的标准，它应当在评价开始之前首先制订出来。量规(rubric)是用来描述表现性评价的标准的专门术语。“rubric”原意为涂红之处或红色标志，指的是中世纪宗教用红笔书写的指导语或解说词；在文件中，法典的标题通常用红色标明。后来，“rubric”被引申为简要、权威的准则。

作为评价的专业术语，由于考察的视角不同，不同的人对量规的界定并不一致：Asmus(1999)认为，评分量规是由教师或评价者开发的一种描述性的评分量表，其目的是为了分析学生学习结果，包括学习作品和学习过程。Arter和McTigh(2000)把评分规则界定为准则的一种特定形式——是成文的准则，它对所有的评分点都做了说明和规定。最好的评分规则往往能体现出我们教师公认的课堂评价的实质，而且能对合格表现的组成要素提供很好的建议。评分规则一般会伴有成果或表现的具体例子，以阐明量表上不同评分点。(2001)指出，评分规则是相对陔查表而言的，这种评分量表正式地规定了评分指南，它由事先建立的表现准则组成，常常在表现性评价中评估学生的作品。Heidi Goodrich(1996)则将它定义为为一项工作列出标准的评分工具，它包含评价作品的标准或所需的期望，它详细地为各等级(从优到差)质量描述出其标准。

由此看来，评分量规作为表现性评价的评价工具，主要由教师或评价专业人员开发，事先详细地规定了学生所要达到的学习目标的标准，用来评价学生的复杂表现或作品。量规有几个不同的类型，下面介绍几种表现性评价中常用的量规类型，并讨论其优点和不足。

(一)核查表

最简单的量规类型是核查表，它是一个包含了学生表现的各种特征的简单列表。它们通常用“是”或“否”来判断，或提供一个地方给评价者做记号以表明某种特征的出现。它没有制订关于表现质量水平的判断，这些特征或特性可能呈现出来，也可能不出现。当评价简单的表现时，如同伴观察或学生自我观察，核查表是很有用的。它们也可以用于评价学生日志，因为日志不要求教师对日志内容的质量作出判断，而是要看学生是否按照教师提供的写作提示，表达了真情实感。

核查表相对比较容易编制，也比较容易管理。它们很容易被理解(表上呈现了评价内容的几个特征)，因为核查表常用于及时评价，所以也要求简洁紧凑。它们对过程或表现质量(如关键要素)的评价是非常有用的。

运用核查表时，注意的第一个问题是，核查表上的所有元素都是同等重要的，因为它没有用某种方法表明所评价的内容的这个特征比另一个特征更重要。运用核查表时注意的第二个问题是，在最初的学习阶段，没有一种方法能表明哪一个特征会最早出现，除非在表现性评价标准中规定了要有某一个特征的呈现，否则哪个特征最先被检查核实，我们一般无从知晓。最后，核查表几乎不可能用来评定分数等级，因为对于教师来说，只有有了能够严格区分不同能力的每一条评分标准，才能判断学生的分数等级。

(二)分值系统

第二种量规类型是分值系统。它很像一个核查表，但一一个重要的区别是，描述的每一条评分指标都分配了具体的分值，评价者能通过给予更多的分值来表明哪一条评分指标更重要。

如果和核查表相结合，分值系统量规是很容易编制的。因为每条评价细目都指定有分值，所以分值系统量规能用来评定分数等级。描述的每一条评分指标哪一条更重要，能通过赋予更多的分值而得到强调。

当教师运用分值量规评定其中某个特征每条指标的得分时，如果没有描述依据怎样的表现得到某一具体的分值的话，分值系统量规的运用就会出现问题。当试图开发一个更清晰的评价时，教师可能会凭着经验列出几个包含在被赋予分值的表现特征之下的组成部分，如果漏掉某一特征之下的某些要素，教师在标示那个特征的分值时，就已经出现了问题。避免这一问题的方法是采用教师团队的形式，集体开发评分量规。

(三)分析性量规

分析性量规与核查表和分值系统量规不同。它要求评价者对描述的每一条评分指标的质量作出判断。以前，只有当某个特征完全展示出来才给予评分，但现在，只要一个特征和特性的基本面貌呈现出来就可以给予评分了。因为对所描述的每一条评分指标的呈现程度作出判断太费时间，所以一些特征通常采用分析性量规。分析性量规有两种类型：定量的分析性量规和定性的分析性量规。定量的分析性量规用数量表示所描述的每一条评分指标的呈现程度，这个数量应当用词和短语来界定，这样，这个数量就更有意义，关于这个数量表示什么能给评价的人一些暗示，这样也就能提高可靠性。定性的分析性量规用言语描述不同的水平，虽然任何水平都能用数字描述，但通常这只是一个数字。而运用定性的分析性量规，评价者被迫对表现质量的水平作出决定，而不是简单地判定中间分数。

分析性量规在形成性评价中是非常有价值的，学生能看到它们的表现是怎样被当作所描述的每一条评分指标评定的。这种描述和定性的分析性量规结合，能提供给学生提高学习水平的机会，让他们看到进入下一个水平必须做什么。因为学生知道评分的标准，他们能进行自我评价，这样通常能激励学生努力学习，进入高一级水平。

但分析性量规很难用于评定分数等级。例如，在一个分析性量规中确定有四个特征，如果一个学生在两条评分指标上得到2，在一条评分指标上得到3，在最后一条评分指标上得到l，它是很难转换成分数等级的。分数等级不应基于所有得分平均数，因为这四个特征并不是同等重要。

(四)整体性置规

整体性量规也是用言语描述表现特征的评价标准。相对于分析每一个特征并单独地给予评分，整体性量规把学生的表现看作一个整体，给表现和结果(作品)判定一个单一的得分。整体性量规为量规的每个水平编写了一段包含有不同特征的描述，所有的表现特征都达到某一质量水平，才能得到该水平的得分。如果一条或两条评分指标没有达到该水平，只能给予低一级水平的得分。

整体性量规典型地用于性(终结性)评价，评价后学生没有机会返回并改进自己的表现。它们通常适用于学期结束时的期末评价，或只需给予单个得分的分数等级评定。正因为只需作出单一的判断，所以，它们比分析性量规使用起来更加快捷。

使用整体性量规的不足之处在于学生很少处在每个特征或所描述的评价细目的单一的水平之上。对教师来说，当他们知道学生的部分表现实际上已处于高一级水平时，很难给予学生低一级水平的得分，这不太真实、也不太公平。整体性量规对学生解释起来也较困难，当学生得到一个分数时，他们不知道自己的部分表现是否已高于所给予的得分，这就是整体性量规通常不用于形成性评价的原因。五、开发表现性评价的建议

开发学生学业评价不是一项单独完成的简单的任务，在一个小组中工作，能得到更多的观点和意见，小组中出现的不同意见的争论，当通过妥协而解决时，有利于形成更完美的评价。下面的建议有利于帮助教师设计学生学业评价。

1．开发适用于同类内容的概括化程度高的评价

与任务具体的评价相比，使用概括化程度高的评价只需要编写少量的几个评价即可，并且，这意味着只要编写少量的量规。教师可以选择某一种类中的内容、活动来教重要的概念，这样可以避免教每项内容或活动(因为学科内容多而课时少)。当学生聚焦于某类内容或活动的关键组成部分时，教授并强调概念，少教而多学。通过这种评价，学生能看到知识内容分类间的联系，能帮助学生理解同类知识、技能的基本特征，产生迁移，学生会学得更有效。

2．用一种评价达成多条课程标准

开发学生学业评价时，不需要为每条课程标准开发不同的评价，开发的评价任务和量规应尽可能多地包含多条标准。例如，当呈现一个作品时，学生能展示动作技能方面的能力、认知性知识、与他人的关系、以及对这项内容和活动的乐趣。一个户外教育中的颠峰活动能从不同行为现场提供评价多条标准的相同机会。使用少量具有深度的评价意味着教师只要管理少量的评价，完成少量的文书工作，节省用于评价的时间。

3．在教学过程开始之前开发评价

在过去，教师等到教学活动完成以后才开发评价，评价往往基于所教授的内容、活动、练习的时间来开发。而在基于标准的课程中，评价基于标准来设计，然后基于评价选择内容和活动，所选的内容和活动将允许学生展示在某条标准上的能力，而不是在某个内容或活动上的能力。这对教师来说代表了一个巨大的范式转型，但当课程使用这种方式评价时，学生的学习会更好地与课程标准保持一致。

4．采用适用于学习过程的评价。因此评价成为了学习的组成部分

评价可以从两方面来审视：为了学习而评价和对学习结果的评价。为了学习的评价通常与形成性评价联系在一起，它的意图是促进学生的学习。教师可以用形成性评价来判断学生已经学会了多少，然后规划下面的课程和教学。在基于标准的课程中，学习是很难与评价区分开来的。安排一个特定的表现性任务或练习，它既是要学习的课程内容、学习活动，也是一种评价。为了学习，学生要积极地投入这项学习活动，同时他们也展示了知识、技能、体能、态度、方法以及与他人的关系。在这里，评价是学习经验，而学习经验因为相伴的评价量规而成为评价。

5．确信学生知道你将怎样评价。并且要有评价的标准

没有理由把学生蒙在鼓里，不让他们知道你要评价什么、你将依照什么标准来评价。提前给予学生评价内容和评价标准，他们可以为此早作准备。许多教师担心，这又将成为考什么教什么学什么，wiggins(1989)指出，如果这个是有价值的、值得学生去花时间的，这不成什么问题，关键是你考些什么，是否能达成标准。表现性评价中要求学生执行的表现任务或练习，都是学生值得花时间努力的，给予学生评价的标准，让学生知道教师的期望，他们可以对自己的能力和进步进行自我评价，使学习过程更加有效。

6．当开发评价时。确保各学段之间的对应一致、逐步递进

不能只为一个学段(只为小学、初中或高中)或水平阶段孤立地设计课程和开发评价，课程的设计和评价的开发应整体考虑，不能与其它水平阶段割裂开来。教师必须在一起工作，保证开发的评价从一个水平阶段到另一个水平阶段(从小学、初中到高中)有很好的流畅性和梯度。最好的方法是从课程标准和评价的出口开始，逐级向后思考，这种逆向设计方法能确保开发的评价在各年级水平上的一致性。

评价是课程设计过程中充满活力的一个部分。如果评价编写得好的话，它们能检测出学生在标准上已展示出来的能力程度。当编写评价时，需要牢记的重要事情是，从课程标准开始出发，决定你希望学生知道和能做什么来达成标准，然后，决定你愿意承认的、表明他们已经达到所希望的知识、技能和行为的证据。评价能帮助检测课程的成效，它们在课程中扮演着一个有生命力的角色，证明学习已真正发生。