校本大学生英语书面语学习者语料库建设初探
杨安 赵佳 郑淑园 马晓樾 徐菲菲
空军军医大学基础医学院 陕西西安 710032
1 引言
很多高校的大学英语教学面临一个矛盾的现象:学校的非英语专业本科生英语四级考试(CET-4)的一次通过率很高,但在全省以及全国高水平竞赛中的成绩始终难以获得大奖。这一绩效悖论折射出标准化考试与真实语言能力之间的断层——学生虽能熟练应对选择题型的语言知识检测,却在需要创造性表达的写作或演讲中暴露缺陷。这一矛盾现象与国内外学者对学习者语料库研究的发现高度契合。Granger(2002)指出,中介语特征往往在常规测试中被掩盖,而通过大规模真实语料分析才能揭示深层次语言能力缺陷[1]。
自 20 世纪 90 年代起,中国语言学界 国内学者先后建成了 CLEC(中国学习者英语语料库)[2] 、SWEC 注体系涵盖语法错误、词性、语义等多个维度,为诊断中国学 的研究发现,中国学习者存在过度使用增强程度副词(如 其它研究亦表明,学习者语料库能有效揭示跨语言迁移规律, 表达(如 so/because),而忽视hence 等书面衔接手段。这些隐蔽性语 能力发展的因素之一
与通用型语料库(如中国学习者英语语料库 CLEC)相比,校本学习者语料库的独特价值在于其“教学诊断的精准性”:通过采集、标注和分析本校学生的真实写作语料,可定量识别一些隐性症结,如词汇僵化、句式单一等,同时还可开展质性分析。这种“定量定性相结合”的研究范式,使教师得以超越经验主义判断,从语言数据中定位教学盲区。
基于此,笔者以本校非英语专业本科生为对象,以其在日常大学英语课程教学中所留写作作业为语料,建立了属于本校的校本学习者语料库,旨在探究以下几个问题:
1)建设基于本校学情的校本学习者书面语语料库的可行性;
2)不同水平学员之间的语言差别以及我校学员与全国大学生英语能力的差别;
2 语料库的建立与语料加工
2.1 生语料的收集
语料的采集严格遵循教学真实性原则,根据我们的研究目的,并结合本校的教学实际情况,在研究期内,我们选取了本校一年级下学期非英语专业本科在大学英语课程教学实施期间所撰写的作文。其教学组在该学期课程计划执行中依托批改网布置了三次写作作业。其中包含两次议论文,一次书信。要求作文长度 120-180 词。作文具体要求如下。我们将所有学生的作文进行批量导出,并以 .txt 格式保存,便形成了原始素材。最终收集有效文本文件 1397 个。
2.2 语料加工
生语料获取完成后则是对语料的加工。加工过程包括了降噪、分词、词性标注等三个步骤。2.2.1 文本的降噪
下载后的生语料文件全部都包含有文件头信息,主要是学生姓名、班级、校名、老师等管理信息(如图1 所示)以及文本中间及尾部可能存在的多余空回车符等。为了使这项工作尽可能地细致准确,课题组成员逐个对文件进行了手工删除。此外,还有部分文件里存在中文标点符号,都要替换成英文标点。

2.2.2 文本的分词
降噪后的文件需要进行分词处理才能被语言处理软件识别。关于分词工具,本研究使用了梁茂成等人在其著作《语料库应用教程》配套光盘中提供的自研软件Tokenizer[5]
2.2.3 词性标注
有些基于语料库的数据分析需要使用词性标注。英文语料词性标注的标注集比较多,各有优劣,适用用途也不同。在建库最初,我们选择了TreeTagger 词性赋码集。
除此之外,为了使语料库能够满足更多的研究需求,我们还采用了 Lancaster University 开发的 CLAWS C7词性标注集对生语料进行了另一套记性标注,以便为后续的研究工作打下基础。下图展示了其中一篇作文在进行词性标注后所呈现的文本。
词性标注后,语料库就形成了“原始文本 + 标注文本”平行存储的数据库。此设计既满足了当前的定量分析需求,又为后续错误标注(如动词误用)预留接口,具备良好的可扩展性。
3 语料分析
3.1 基础数据与词汇多样性分析
语料库建设完成后,我们使用Antconc 对其基本数据进行了统计,并与相关语料库进行了初步的数据对比。
从数据上看,本语料库的类符数 8807 个,形符数 242624 个,类符形符比(TTR)为 0.036。相比之下,使用Antconc 统计中国学生英语笔语语料库(WECCL)后,我们发现其类符形符比为 0.060。该指标数值越大则说明语料库所代表总体的词汇多样性越高。这说明我校本科生的主动词汇量与全国更广范围的学生相比还是有差距的。
笔者认为造成这一差距的原因之一是样本来源的不同。校本本语料库的样本采自本校非英语专业一年级下学期撰写的作文。而 WECCL 的样本则采自全国 9 所不同层次的高校英语专业 1-4 年级的学生。很明显,无论是入学基础还是大学英语阶段的学习积累以及专业的不同都足以造成这一差距。本校学生在四六级考试一次通过率能够长年保持在95% 以上,最高甚至超过97%。但在以输出为主的写作、演讲、辩论比赛中,很少获得国家级高等奖项。主动词汇量的欠缺显然是其中的原因之一。
3.2 句法特征与中介语典型现象
3.2.1 因果连接词使用的口语化
为了进一步探究校本语料库的其它语言特征,我们对因果连接词的使用进行了检索与对比。检索词条包括 so,because, inc due to, because of,thus 等。这里需要说明的是 能表达因果关系,但本次检索的主要目的是考 ue to,我们只记录其做原因状语的使用情 o that, as to 连用表达其它意思, 会对检索结果逐条验证,排除不符合要求的 句法功能类似,因此在检索结果中不加区 对频数呈现。结果如下表所示:


表1 校本语料库中的因果连接词使用频数
从数据结果上看,学生对口语化的连词 so 的使用明显过于偏重,而具有明显书面语特征的表达 therefore,hence 等则使用甚少。这一趋势与张雨欣(2024)[6] 的研究结果类似。其所建立的学习者语料库取材自中国学习者撰写的托福考试作文。其写作水平相对较高,但数据显示其仍然存在连词使用多,偏重口语化表达的特征。二者发现的相似性表明这很可能是中国英语学习者书面表达的共性。与LOCNESS 语料库对比后我们发现,校本语料库中,so 的使用频率远高于 LOCNESS(约 114/10 万词),而其它因果关系连接词的使用频率则均远低于 LOCNESS。这一对比结果充分说明我们的学生在使用因果关系连接词上的丰富程度很低,而且受习得顺序的影响比较大,因为 so 是学生们最早习得的因果关系连接词,所以使用得最多,并且对其过度依赖。
3.2.2 程度副词使用不均衡
除了因果连接词,我们还对一些程度副词进行了简单的检索与对比。检索方法仍然是获取频数后进行标准化处理,以每10 万词形式呈现。同时我们还检索了WECCL 及LOCNESS 的对应词条以进行对比。
表2 程度副词的使用

从结果看,校本语料库的分布趋 接退 些。而取材自英语专业本科生的WECCL 对 very 的使用似乎过于 校本语料库。然而实际情况是在校本语料库中,由于作文的要求是四 所谓的“作文模板”或范文。这类作文实际上并非完全由学生独立创作。而以此为基础的、稍加修改的作文并不能代表学生的真正水平。
4 结论与展望
通过本研究,笔者所在研究团队探索了校本学习者语料库的必要性及可行性,又以一些初步的数据分析实证揭示了四级高通过率背后的语言能力断层。实践证明,建立适合本校学情的学习者书面语语料库是有必要、可行且对教学质量的提高大有益处的。
语料数据表明:学生词汇多样性不足、口语化特征显著、学术语言储备薄弱,这些问题在通用测试中有时难以显现的,但却成为制约学生英语运用能力进一步提高的“元凶”。校本语料库凭借其区域针对性和数据颗粒度,为破解“高分低能”困境提供了一条值得探索的路径。
参考文献:
[1] Granger, S. A Bird’s-Eye View of Learner Corpus Research[C]// In S. Granger, J. Hung & S. Petch-Tyson (eds.), Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. Amsterdam: John Benjamins,2002 :3-33.
[2] 桂诗春,杨惠中. 中国学习者英语语料库(CLEC)[M]. 上海交通大学语料库语言学研究中心, 2003.
[3] 文秋芳, 王立非, 梁茂成. 中国学生英语口笔语语料库(1.0 修订版)[M]. 北京: 外语教学与研究出版社.
2005
[4] 徐峰 . 基于语料库的中国英语学习者增强程度副词使用研究 [J]. 商情 ( 教育经济研究 ),2008(7): 57-
58.
[5] 梁茂成,李文中,许家金. 语料库应用教程[M]. 北京:外语教学与研究出版社,2010.
[6] 张雨欣 . 基于语料库的中国英语学习者写作中因果连接词研究 [J]. 现代语言学 , 2024,12(5) :533-544.
课题项目:该文章为教学研究课题“空军军医大学本科学员英语书面语语料库的建设与研究”2024-JCJXKT-YB-11 终结性成果。
作者简介:杨安(1980.5—),男,汉族,辽宁辽阳人,硕士,副教授,研究方向:医学英语研究、语料库语言学。