面向国际中文教育的汉语介词用法知识库建设
杜朝丽 王雪燕
鲁东大学国际教育学院,烟台,264025
摘要:介词在国际中文教学中是学生学习汉语的难点和重点,调查表明,国际学生介词使用的偏误率较高。介词数量较多、形式多样、意义丰富,学生习得存在一定的难度。基于此,针对国际学生介词使用偏误,以功能层级理论和构式语法理论为基础研究汉语介词的用法和功能,并在此基础上建设面向国际中文教育的汉语介词用法知识库,形成包括“语法信息库、偏误库和例句库”的基本架构,以便减轻介词学习难度、更好地促进国际学生汉语学习。
关键词:介词用法知识库 语法信息库 例句库 偏误库
1 引言
目前国内外在语言知识库方面的研究主要是针对实词,对虚词的研究相对 较少。因此,俞士汶(2003)在原有语言资源的基础之上提出了“三位一体”的思路,来实现现代汉语广义虚词知识库的构建。[1]刘云(2004)为各类虚词设计了相应的属性描述, 对常用虚词进行归类总结,从而构建了现代汉语虚词词典基本框架。[2]昝红英等完成了现代汉语广义虚词知识库的构建,包括现代汉语虚词用法词典、现代汉语虚词用法规则库和现代汉语虚词语料库。刘锐等初步研究了基于规则的副词用法 自动识别。昝红英等探讨了基于统计的副词用法自动识别。在对虚词用法研究的基础上,袁应成等对现代汉语介词短语边界识别进行了研究。周丽娟等对现代汉语连词结构短语自动识别进行了研究。
本文在以上研究的基础上,完善了现代汉语介词语法信息库和现代汉语介词例句库以及现代汉语介词使用偏误库,是现代汉语虚词知识库的重要组成部分。
2 研究意义
本文研究对象的选取、介词本体研究存在问题的梳理均从国际中文教育角度出发,可实现汉语介词本体研究和国际中文教育的有机结合,形成从国际中文教育出发到服务于国际中文教育的研究模式。拓展了汉语介词研究新视角。
方便进行汉语语块教学,介词结构在句法结构中的位置是比较固定的,正确识别介词结构有助于对句子进行分块研究,为句法分析提供有利的依据。比如,通过介词结构分析可以帮助识别主语、识别谓语中心词,进而降低句法分析的难度。
方便对篇章知识进行挖掘,由于一些位于句首的介词结构可以充当话题,在句法结构中有连缀和标示作用、句式标记作用、管约和标界作用,因此可以通过介词结构进行篇章知识层面的分析。介词篇章知识表达的探索,有助于为今后面向中文信息处理中的篇章分析研究奠定基础。
可以促进汉语虚词知识库的建设,面向国际中文教育的汉语介词用法知识库是现代汉语虚词知识库的重要组成部分,该介词用法知识库的研究将为汉语广义虚词知识库乃至整个汉语综合型语言知识库的研究提供必要的支持。
3 汉语介词用法知识库建设研究现状
3.1 汉语中介语语料库建设
从20世纪90年代初开始,经过近几十年的发展,取得了长足的进步。目前
国内规模较大的中介语语料库有:
HSK 动态作文语料库。该语料库由北京语言大学开发,以母语为非汉语的外国人参加高等汉语水平考试(HSK 高等)作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进行全面标注,语料为1992-2005年间的11569篇,共计424万字,是目前规模最大的汉语中介语语料库。许多语料库都以它为基础进行偏误标注。
2.汉字偏误标注的汉语连续性中介语语料库。该语料库由中山大学国际汉语学院建设,分为汉字偏误标注版和字、词、句偏误标准版两个入口。语料主要收集是山大学国际汉语学院国际学生日常作文和综合课的写话,语料涵盖初、中、高级阶段,但初级水平的语料偏少,中级较多,高级最多。其“字词句偏误标注版”包含分词和词性标注预处理。偏误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。“汉字偏误标注版”只有错别字标注,但也可供用户进行一般的词汇语言搜索及对汉字偏误进行分析研究。
3.汉字偏误库。该库由台湾师范大学开发,是中国第一个汉字繁体字偏误语
料库。该库的语料来自台湾师范大学国语中心(MTC)、台湾大学国际华语研习所(ICLP)、台湾大学文学院语言中心中文组(CLD),收录了德语、法语、英语等 15
种母语背景学生的汉字偏误,分初、中/高三级,共计 2536 个偏误汉字。
3.2 汉语介词用法知识库建设与研究
彭爽、俞士汶的现代汉语介词知识库的建设,探讨现代汉语介词知识库建设的意义、与现代汉语广义虚词知识库的关系、构建的原则以及主要内容。魏金光的国内外汉语介词研究综述,探讨汉语介词研究的系统性成果、介词系统及其演变研究。赵春辉的对外汉语中的介词教学研究,探讨留学生运用汉语介词时出现的偏误句型与介词学习的相关教学策略。
4.面向国际中文教育的汉语介词用法知识库建设
本文在调查 HSK 动态作文语料库、汉字偏误库等语料库的介词偏误的基础上,依据《现代汉语语法信息词典》等词典对介词释义,结合介词的语法功能,构建汉语介词知识库。[3]
4.1 建设原则
介词知识库建设本着“开放、共享、互通、”促进原则,突出国际中文教育应用导向,实用性导向,为对外汉语教学、对外汉语学习、对外汉语教材编写与研究提供借鉴资源。
4.2 介词知识库架构
本文建设的介词知识库由介词语法信息库、例句库和偏误库三个子库组成。语法信息库为介词学习和教研提供理论基础和本体知识,偏误库和例句库指向教学,同时又能反映介词语法信息库研究中存在的问题,起到相互促进作用。
(1)介词语法信息库
首先,基于介词功能层级,参考《现代汉语语法信息词典详解》确定介词全部语法信息字段;其次,通过对比常用词典释义,结合介词的语法功能,对介词释义及义项进行重新划分,明确介词语法知识;最后,借助词典、常用汉语教材以及《人民日报》标注语料库选取典型例句。
(2) 建设介词使用偏误库
介词使用偏误库以全球中介语料库(如中山大学中介语语料库)、北语 HSK 动态作文语料库为基础,选择部分语料,结合本文偏误标注标准,重新确定介词偏误标注,偏误类型体现功能层及特点,推动介词使用偏误库建设。 (3)介词例句库
针对介词语法信息库、介词使用偏误库进行介词例句库的设计。删除无效语料与有效语料中的错误例句,将正确例句按照国际学生不同年级对汉语的认知水平进行划分,由易到难划分成初级、中级、高级三部分, 做到不重复、不遗漏、不超纲,方便不同年级的国际学生对介词的学习与掌握。
4.3 语法信息库字段
词语、注音、词性、词语等级、释义、用法信息、多个例句、偏误分析及例示。
4.4语料标注
通过语料标注给口语、书面语知识库增添解释和语言的信息。通过不同层次的标注,不同侧面进行。可从字、词、句、篇、标点符号,乃至语义、语用等各个方面进行标注。来达到对语料的基础型加工,例如规范化加工、词类的大小类标记、特殊词类的标记等等。同时要保证语料标注的准确性,要符合汉语的各项语法规则,应当依据国家法定的《信息处理用现代汉语词类标记规范》,对介词语料库中的语料进行分词处理和词性标注。并且要达到易于学习, 清晰易懂的结果。
5 结论
针对国际学生介词使用偏误,以功能层级理论和构式语法理论为基础研究汉语介词的用法和功能,并在此基础上建设面向国际中文教育的汉语介词知识库,确立建设原则,形成包括“语法信息库、偏误库和例句库”的介词用法知识库基本架构,以便为汉语学习者提供基本介词用法知识,促进国际学生汉语学习,更好地服务于国际中文教育。
参考文献
俞士汶,朱学锋,刘云.现代汉语广义虚词知识库的建设[J].汉语语言与计算学报,2003,2(1):89-98.
刘云.汉语虚词知识库的建设[D].北京大学博士后出站报告,2004.
张斌.现代汉语虚词词典[M].北京:商务印书馆,2001.