对外汉语文本可读性研究综述
吴荔佳
浙江金融职业学院 浙江杭州 310018
摘要:文本可读性研究旨在界定语言文本的易读等级,为教材、读物编写与选择提供指导,提升语言学习效果。对外汉语文本可读性研究历经质性讨论、公式研制、机器学习阶段。后续研究方向为:吸引跨学科人才,借助多学科手段丰富成果;以《新标准》为指引,使研究成果符合其难度划分;针对不同级别和类型文本开展专项研究;探索量化非文本因素的方法,完善可读性研究体系。
关键词:可读性;对外汉语文本;研究综述;研究建议
一、引言
国际中文教育一线教学长期面临汉语教材质量差、课外泛读材料少的问题,汉语文本可读性研究至关重要(刘颂浩,2000)。可读性狭义是文本与读者水平的匹配度,广义涉及影响阅读的多方面要素,其影响因素分为文本和读者两类(朱勇,邹沛辰,2012;杨文娣,2019)。
可读性研究从初期的质性讨论,发展到利用统计学量化研究,再到借助新技术深入探索。英语国家该研究成果丰富,我国相关研究在对外汉语教学发展推动下迅速兴起,2000 - 2021 年相关文献超 40 篇。本文将总结英语研究结论,回顾国内研究历程与成果,并对未来研究提出展望。
二、英语文本可读性研究成果
国外文本可读性研究主要聚焦两个关键问题:一是哪些因素决定文本可读性,二是是否存在量化方法测量文本可读性。
在探讨影响文本可读性的因素上,学者们从多维度展开探索。Gilliland(1972,转引自朱勇,邹沛辰,2012)提出可读性研究涵盖阅读难易度、兴趣或强迫度、理解程度三个方面;Dechant & Smith(1961/1977)认为文本易读性受词长、句长、人称代词、事实密度等 15 项因素影响;Klare(1984,转引自王蕾,2008)指出可读性可指手写或印刷品易辨认性、作品趣味性带来的易读程度、写作风格导致的理解难易程度,Harris & Hodges(1995)、Fry(2002)更直接将 “可读性” 定义为 “写作中遣词造句的方式引起的阅读的难易程度” 。由于可读性涉及主客观多方面因素,学者们对其影响要素的理解难以统一。
鉴于此,更多学者将目光投向文本层面,寻找可量化的因素以摆脱主观判断。Betts(1949)发现单词层面的不同词百分比、不常见词数,短语层面的介词短语数,句子层面的平均单词数、简单句数等都会影响可读性,并总结出难度大的材料含大量非高频词、介词短语、复杂长句,单词重复少、音节多;难度小的材料则高频词、短句和人称指代多。总体而言,研究者普遍认为影响英语文本可读性的文本因素集中在词和句子层面,主要体现为词汇难度与句子长度。
为实现可读性的量化呈现,学者们开始探究可读性公式。这是一种将影响阅读难度且方便量化的因素综合起来的公式,使用者输入文本参数,即可得到文本难易程度分数,进而实现文本难度排序,是一种 “预测性的手段”(Klare 1984,Fry 2002)。研究人员致力于筛选 “最重要因素” 并控制数量,Lively 和 Pressey 通过衡量句法和语义难度制定了首个客观可读性公式(转引自 Hiebert,2002),为后续研究奠定基础。Vogel 和 Washburne(1928,转引自 Klare ,1984)首次运用回归方程方法,制定出含多个语言变量的公式,成为一时典范。至 20 世纪 80 年代,英语可读性公式已超 200 个(Dubay,2004),展现出该领域研究的蓬勃发展态势。具有代表性的公式有如下三个(杨文娣,2019):
(1)Flesch-Kincaid公式,计算方法如下:
公式中的numWords、numSentences、numSyllables分别指英语文本的总单词数、总句子数、总音节数。当Score值越大,文本可读性越高,即越容易阅读和理解。
(2)Dale-Chall可读性公式,以难词数量好句子长度为指标进行易读性计算,公式如下:
公式中的numWords、numSentences、difficultWords分别表示文本单词数量、句子数量和难词数量(DaleChall词表以外的单词被该公式视为难词)。
(3) Guning Fog公式,又称迷雾指数,公式如下:
Guning Fog 公式中的 numWords、numSentences、complexWords 分别指文本单词总数、句子总数、难词总数(音节数大于 3 的单词为难词) ,其迷雾指数能估测读者理解文本所需的正规教育年限。这些可读性公式应用广泛,除英语教学,还涉及出版社、医疗、法律等行业(吴思远,2018)。英语文本可读性公式多以语义和句法难度为测量对象,测量词长、词语熟悉度、句长等变量(王蕾,2017)。
可读性公式虽计算简便,但因研究者理解、数据和计算方法不同,差异较大,各有侧重与局限。之后,有学者从认知理论出发,通过测量命题密度等确定文本难易度;还有学者利用自然语言处理等技术研究可读性(Benjamin,2012)。
三、对外汉语文本可读性研究成果
在可读性量化研究前,对外汉语文本难易程度评定方式有专家综合评定、教师经验估计、学生试读感受评定三种。这些方式能大致评估文本可读性,辅助师生选择合适文本,但都是主观评价,缺乏科学性和可信度,所以量化评估成为必然趋势。
影响汉语文本可读性的因素众多。与英语不同,汉语需考虑汉字因素,且句法难度不能仅由句子长度决定。在汉字层面,笔画数和使用频率影响汉字认知加工速度(张武田,冯玲,1992;彭聃龄,王春茂,1997)。词汇层面,词频影响大,存在 “词频效应”,词性也有作用,实词易被关注,虚词数量影响理解(张金桥,2008;左虹,朱勇,2014)。句子层面,句长和语法难度影响易读性,不过因缺乏评定语法难度标准和统计工具,语法项目在量化研究中较少被考虑(张宁志,2000;柯传仁、沈禾玲,2003)。篇章层面,关联词可能与可读性有关(彭小川,2004)。
对外汉语领域文本可读性研究始于本世纪初。张宁志(2000)参照英美公式参数,对 29 部常用教材语料测试,将 “平均每百字句数” 等三项数据相加得教材难度,这是早期公式雏形(王蕾,2017)。但朱勇(2016)以《中文天天读》为例指出其不合理之处,改写后的句子更易理解,按该公式却显示难度更大。
王蕾(2005)针对初中级日韩留学生汉语文本,选取涉及汉字、词汇、句法、篇章的 17 个变量量化研究,筛选变量后用多元线性回归建立了可读性公式 。此后,杨金余(2008)、郭望皓(2009)、左虹和朱勇(2014)、江新等(2020)也分别针对不同类型文本提出可读性公式,但这些公式在计算方式和变量选取上差异较大。
近二十年国内针对对外汉语文本可读性研究形成五个公式,它们在计算方式和变量上差异大。汉字层面,仅两个公式提及汉字难度;词汇层面变量最多,虚词数和超纲词数受较多关注;句子难度层面,平均句长和分句数分别在不同公式中出现,“分句数” 对汉语文本可读性影响或更准确。
基于分类的方法
计算机技术推动文本可读性研究发展,吴思远等(2018)介绍了基于分类的方法。该方法在机器学习中,将可读性评估视为分类任务,让机器通过学习不同可读性语料及相关语言特征,构建分类模型来确定文本可读性等级。其能考虑更多语言要素,评估结果比可读性公式更准确,评估高难度文本优势显著(Schwarm S E 等,2005;Heilman M 等,2018;Feng J,2010)。
四、对外汉语文本可读性研究的展望
对外汉语文本可读性研究的后续发展,有以下四个方向:
一是吸纳跨学科人才。由于可读性公式有局限,新方法前景好且具跨学科属性,需借助自然语言处理等技术,仅靠本专业人员不足,要吸引多学科人才加入。
二是以《新标准》为指引。《国际中文教育中文水平等级标准》是国际中文教育的关键依据,后续研究应按其 “三等九级” 划分确定文本难度,为教材编写提供参考。
三是开展专项研究。对外汉语文本分类多样,不同类别可读性标准不同,对各层级、类型文本开展专门研究,能提升研究实用性。
四是量化非文本因素。读者因素在量化研究中常被忽略,但影响重大,像母语与目标语差异、学习年限等可量化,将其纳入考量,对开发国别教材意义重大。
参考文献
[1] 刘颂浩. 论阅读教材的趣味性 [J]. 语言教学与研究, 2000, 3: 15-20.
[2] 朱勇, 邹沛辰. 《中文天天读》易读性研究 [J]. 云南师范大学学报, 2012, 10(3): 41-46.
[3] 杨文娣. 基于多维度特征与随机森林的对外汉语文本可读性评估 [D]. 武汉: 华中师范大学, 2019.
[4] 王蕾. 可读性公式的内涵及研究范式——兼议对外汉语可读性公式的研究任务 [J]. 语言教学与研究, 2008, 6: 46-53.
[5] 吴思远, 蔡建永, 于东, 江新. 文本可读性的自动分析研究综述 [J]. 中文信息学报, 2018, 32(12): 1-10.
[6] 王蕾. 初中级日韩学习者汉语文本可读性公式研究 [J]. 语言教学与研究, 2017, 5: 15-25.
[7] 张武田, 冯玲. 关于汉字识别加工单位的研究 [J]. 心理学报, 1992, 4: 379-385.
[8] 张金桥. 留学生汉语单字词识别的笔画数效应、词频效应和词素频率效应 [J]. 暨南大学华文学院学报, 2008, 1: 22-29.
[9] 左虹, 朱勇. 中级欧美留学生汉语文本可读性公式研究 [J]. 世界汉语教学, 2014, 28(2): 263-276.
[10] 张宁志. 汉语教材语料难度的定量分析 [J]. 世界汉语教学, 2000, 3: 83-88.
[11] 柯传仁, 沈禾玲. 回顾与展望:美国汉语教学理论研究述评 [J]. 语言教学与研究, 2003, 3: 1-17.
[12] 彭小川. 关于对外汉语语篇教学的新思考 [J]. 汉语学习, 2004, 2: 49-54.
[13] 朱勇. 对外汉语分级读物的几个重要问题 [J]. 海外华文教育, 2016, 2: 174-179.
[14] 王蕾. 初中级日韩留学生温拌可读性公式初探 [D]. 北京: 北京语言大学, 2005.
[15] 杨金余. 高级汉语精读教材语言难度测定研究 [D]. 北京: 北京大学, 2008.
[16] 郭望皓. 对外汉语文本易读性公式研究 [D]. 上海: 上海交通大学, 2009.
[17] 江新, 宋冰冰, 姜悦, 翟雨莹. 汉语水平考试(HSK)阅读测试文本的可读性分析 [J]. 中国考试, 2020, 12: 30-37.
[18] 国家汉语水平考试委员会办公室考试中心. 汉语水平词汇与汉字等级大纲(修订本)[M]. 北京: 经济科学出版社, 2001.
[19] 教育部中外语言交流合作中心. 国际中文教育中文水平等级标准 [M]. 北京:北京语言大学出版社, 2021.
[20] Dechant, E. V. & Smith, H. P. Psychology in Teaching Readability [M]. New Jersey: Prentice-Hall, Inc., 1961/1977.
[21] Harris, T.L. & Hodges, R. E. The Literacy Dictionary: The Vocabulary of Reading and Writing. Newark [M]. DE: International Reading Association, 1995.
[22] Fry, E. 2002. Readability Versus Leveling, The Reading Teacher, 56(3), 286-291.
[23] Betts, E. A. Readability: Its Application to the Elementary School [J]. Journal of Educational Research, 1949(42): 438-59.
[24] Hiebert, E. H., 2002. Standards, Assessments, and Text Difficulty, in A. E. Farstrup & S. J. Samuels (eds.) Jeng, Cheng-Chang, 2001. Chinese Readability Analysis Using Artificial Neural Networks [D]. DeKalb: Northern Illinois University.
[25] Dubay, William H., 2004. The Principle of Readability. Retrieved from http://www.impact-information.com/impactinfo/readability02.pdf
[26] Benjamin, Rebekah G. Reconstructing readability: Recent developments and recommendations in the analysis of text difficulty [J]. Educational Psychology Review, 2012, 24(1): 63-88.