大学英语教师写作评分差异研究
卢伟烈
广州工商学院
1 引言
写作是一种产出性语言运用测试(language performance assessment),能够对语言使用者的综合应用能力进行直接地、较为真实地测量,因而已成为大规模高风险语言考试必不可少的组成部分(如大学英语四六级、英语专业四级八级、雅思、托福等)。与单项选择题等客观题型不同,学生的写作需要评分员根据评分标准进行评价,因此,评分员的评分行为和评分标准成为了影响学生写作成绩的重要因素。作为具有专业知识和经验的教师是具有独立认知过程的主体,他们如何理解评分标准,在评分过程中如何依据自己相关的知识,对学习者的语言行为做出评判,应受到考试开发者、质量监控人员和效度验证研究者广泛关注和深入探讨的问题 (张洁,2013)。评分员的评分效度、信度是语言测试领域研究的一大热点。以往研究只关注大规模高风险写作评分员的评分行为,尚未有研究探索同一所高效内同一课程组的老师针对期末考试写作的评分行为。虽然其风险程度不如高考、研究生入学考试、四六级考试,但这种校内终结性测试对于学生影响重大,涉及奖学金的获得、进一步升学可能性等,进而影响考试的公平性,因此这方面的研究显得至关重要。
2 文献回顾
在语言测试领域的现有文献中,做事测试评分员的评分行为是一大研究热点。研究者从不同角度切入。Cumming(1990)对比新老评分员的评分质量,其结论之一是:与新评分员相比,老评分员对作文中出现的问题有较为全面地观察,并且会采用更多地阅卷技巧。邹申和杨任明(2002)也关注新老评分员的评分差异,他们研究评分员如何使用专四评分标准。在他们的研究中,来自不同院校的3 名新评分员和3 名老评分员参与评分,研究者使用Cronbach Alpha 和独立样本 T 检验分析评分员的差异,结果显示新老评分员总平均值未显示有显著性区别,但同时推测,在评分一致的表面下,评分员仍按各自的方式操作。李清华和孔文(2010)也关注专四写作评分员。他们邀请18 位评分员使用新的分项式评分标准独立评阅了35 篇专四作文文本,并运用多层面Rasch模型对评分结果进行分析。结果显示,评分员的松严度虽然存在显著差异,但评分员之间的一致性和评分员内部的稳定性均在可以接受的范围之内。徐鹰(2013)以大学英语四级考试的评分员为研究对象,对比不同性别评分员的评分差异。通过多层面 Rasch 模型,对9 名男性评分员和18 名女性评分员所给出的分数(每位评分员为30份CET4 模拟作文评分)进行分析。结果表明:虽然不同性别见不存在显著差异,但男性评分员容易出现评分不拟合;男性评分员更容易出现集中趋势;男性评分员容易出现随机现象。
在以上研究中,研究者只关注评分员的结果(分数),对评分员评分结果的统计分析虽然能够帮助我们发现和估算他们之间差异,却无法进一步解释这些个体差异产生的原因,以及它们在考试结果中会否引入与构念无关的变量(construct-irrelevant variance) 进而影响考试的效度,因此有必要探索评分员的评分过程,即他们的评分依据、对评分标准的理解和使用。这方面的研究可以帮助我们更好地理解评分员评分的依据和过程,探讨产生评分员个体差异的原因,从而为改进评分量表和评分员培训等环节提供有效的反馈信息,以确保语言运用测试公平、有效(张洁,2013)。越来越多的研究开始关注从关注分数是否一致转向关注评分员本身;他们的评分依据、对评分标准的理解和使用,甚至他们评分的心理过程成为考试效度验证中很重要的一个方面。
在之前的研究中,研究者只关注大规模高风险考试写作测试评分员的评分行为,而忽略了同一所大学内同一个课程组老师的评分差异。在现行的大学课程教学实践中,每个年级的同一个课头(课程)由若干老师任教(比如综合商务英语、综合英语等),期末考试结束之后,每个任课老师负责评改自己所教班级的试卷,教师所给出的分数决定学生的学分绩点、奖学金获得与否。这种做法其实是基于一个假设:所有老师对评分标准的理解是一致的;他们的严厉度是一致的,因而其评分结果具有可比性。对于一些客观程度较高的题型(如选择题、选词填空题等)评分的信度不存在问题。但是对于主观的题目(如成段翻译、句子改写、写作等)则存在不确定性。是否所有老师对评分标准的理解趋于一致?他们评分时给分的理据是否一致呢?第一个问题关注评分标准的质量,第二个问题关注评分分数的有意义性。如果老师同一课程组的老师对评分标准的理解不一致,说明改标准需进一步完善;如果老师的给分理据差异过大,则说明评分前的评分培训需要加强。
3 研究设计
广东省某高校的综合商务英语课程由五位老师任教,期末考试之后,五位老师分别批改自己任教班级的试卷(其中作文占20 分)。本研究随机挑选每位老师批改的一个班的作文成绩作为研究数据分析,一共是五个班级共15?份作文。在老师评阅完作文的当天下午或第二天上午,对老师进行回溯访谈。访谈之前,先让老师挑选该班作文成绩处于低等(8 分以下),中等(9 分至15 分)以及上等(16 分以上)各两篇,在告知访谈目的以及访谈数据只用于研究之后,开始访谈。访谈围绕以下问题进行:1 你觉得这个评分标准容易理解吗?2 根据这份评分标准,评卷时应该关注哪些方面?3 为什么你会给这篇作文打这个分数?4 你觉得哪些方面会影响你给高分或给低分?
访谈结束后,将访谈音频转为文本,在将文本通读三次之后进行主题归类,然后进行主题分析,揭示大学同一课程组英语老师的评分差异。在以上的访谈问题中,对第1 第2 个问题的访谈分析主要回答第一个研究问题;对第3 第4 个访谈问题的分析主要回答第二个研究问题。
4 结果与讨论
4.1 同一课程组老师对评分标准的理解
对于该评分标准是否容易理解这一问题,同一课程组5 名教师接认为‘比较容易’(3)或非常容易(2),回答比较容易的评分员首先承认该评分员制定得‘还可以’(T2),接着又指出一些可以进一步完善的方面。T1 认为,该评分标准的档次划分不是很清楚,让老师评分时有点为难。比如在结构方面,该老师认为第四档(12-15 分档)和第五档(16-19 分档)难以区分,有时可能会混淆。该评分标准对于结构方面第四档的描述是:“结构基本清楚,有逻辑性,但不充分”;而对于第五档的描述则是:“结构比较清楚,有一定的逻辑性”。教师对于‘基本清楚’和‘比较清楚’很困惑。这一发现一方面说明该评分标准在语言表述上可以进一步完善;另一方面,在评分之前,需要挑选典型作文样本,使教师更好地区分不同档次的作文。
评分时应该关注哪些方面?对于这一访谈问题的回答同一课程组五位教师的答案也趋于一致,皆认为需要从内容、结构、语法和得体这几方面,但对于五位教师来说,这四方面的重要性则不同(见表1)。
表1:教师对评分方面重要性的理解

注:4 表示非常重要,1 表示非常不重要。
从表1 可知,同一课程组的五位教师对于评分4 个方面的重要性有不同的理解。对于T1 来说,写作内容最为重要,第二重要的是文章的结构,最后是语法和得体;对于 T2 来说,语法最为重要,第二重要的写作内容,其次是得体和结构;T3 和T1 一样,认为写作内容最为重要,但是T3 认为第二重要的是语法,然后是结构和得体。T4 和T5 均认为最为重要的是语法,但T4 认为第二重要的是结构,其次是得体和内容;而T5 则认为第二重要的是写作内容,其次是得体和结构。教师们对于评分方面重要性的不同理解,一方面可能受到评分标准对于这四个方面的排序影响,在该评分标准中,内容、结构、语法和得体从左到右排列依次进行描述,T1 可能受到该排列的影响。另一方面教师们也可能受到自身学习、教学经历的影响。比如T2 是受到自身的学习经历影响。该教师坦言,在其学习英语的过程中,首先是花大量时间把整个英语的语法体系弄懂,然后再学习其他方面,因此,该老师认为语法最为重要。这一发现说明,在评分前,有必要跟教师们强调评分时要摒弃个人经验的影响,以评分标准为准。另一方面,评分的四个方面到底哪个最为重要,哪个最为不重要,该标准并没有明确。如果时这四个方面均等重要,最好在每个评分方面写上均等的占比 25% 。
4.2 同一课程组老师评分的实际关注点
虽然课程组的老师们都认为该评分标准容易理解,并且知道应该从内容、结构、语法和得体这四个方面进行评分,但在实际的评分过程中,教师们的实际关注点存在差异。表 2 汇总了该结果。
表2:评分教师的实际关注点

注:1 表示该教师关注了该维度,0 表示未关注。
虽然评分标准规定了评分要从内容、结构、语法和得体四个维度进行,但表
,教师评分时并没有关注所有这四个维度。T1、T4 和T5 评分时关注了内容、结构和语法这三个维度;T2 和T3 只关注内容和语法两个维度;同一课程组的五名教师评分时均不考虑得体。
除了关注评分标准内列出的维度,教师评分时还关注了评分标准外的维度。该发现与王海贞(2008)的研究发现一致。王海贞(2008)聚焦全国英语专业四级口试评分员对评分标准的理解和使用,发现评分员在评分过程中不仅考虑评分标准内的因素,还考虑率了评分标准外的因素。教师关注的评分标准外维度有两个:书写和平时表现。在现行的考试中,学生手写作文,工整与否、字体美观与否成为影响教师评分的因素。有教师直言,只要看到学生的写作书面潦草,便会自动判定该作文为低档次水平(T3)。平时表现这一评分标准外维度看似与写作评分无关,但考虑到每位教师都是给自己任教的班级评分,因为教师熟悉学生,经过一个学期或更长时间的相处,教师对学生的上课表现了如指掌,这种熟悉在某种程度上会影响老师评分。T4 在评分时会“先看看这是哪个学生的试卷,如果该学生平时积极、上课表现好,就会多给一两分”。
5 结语
以教师评分员为中心的研究可以帮助我们更好地理解评分员评分过程,从而为改进评分标准和评分员培训等环节提供有效的反馈信息,以确保语言运用测试公平、有效(张洁,2013)。以往以大规模高风险考试评分员为研究对象,而本研究以同一课程组的五名教师评分员为研究对象,研究他们的写作评分差异。研究发现,教师们对于评分标准的理解基本一致,知道应该从哪些维度进行评分,但侧重点有所差异。在实际的评分过程中,教师并没有关注评分标准列出的所有维度,教师还关注了评分标准之外的维度。这些发现说明在正式评分之前,课程组需要强化评分培训,让所有教师达成共识,避免教师的主观学习、教学经验影响了评分过程。
参考文献
Cumming, A. Expertise in evaluating second language compositions. [J]. Language Testing, 1990, 7(1):31-51.2 李清华&孔文, TEM-4 写作新分项式评分标准的多层面 Rasch 模型分析. [J]. 外语电化教学, 2010, (1):19-253 王海贞, 全国英语专业四级口试评分员对评分标准的理解和使用. [J]. 外语教学理论与实践, 2008, (2):33-394 徐鹰, 不同性别评分人差异的实证研究.[J]. 外语测试与教学, 2013, (3):16-24.5 张洁, 语言运用测试的评分效度 ---- 以评分员为中心的研究综述. [J]. 外语测试与教学, 2013, (3): 25-33.6 邹申&杨任明, 他们如何使用评分标准?---TEM4 新老评分员调查. [J]. 国外外语教学, 2002, (3): 1-6.项目:本论文为“2023 年质量工程‘大学英语教师写作评分差异研究’项目(项目编号JXGG20231036)成果”
作者简介:卢伟烈,讲师,博士,研究方向:语言测试