缩略图

基于语料库的名词术语辞书编纂实践与规范研究姓名

作者

艳春

内蒙古社会科学院语言研究所

一、引言

名词术语作为各学科领域内 语言表达,是学术交流、知识传播与专业发展的重要载体。名词术语辞书以规范 、行业实践等诸多领域发挥着不可替代的关键作用 限的文献资料以及主观判断,存在术语收录不全、 以及语料库语言学的蓬勃发展,基于语料库的辞 使用实例,能够为名词术语的提取、释义、用法说明等 科学性、准确性与规范性。因此,深入开展基于语料 纂事业发展、促进语言规范化建设以及满足专业领域知识传 现实意

二、语料库在名词术语辞书编纂中的作用

2.1 提供客观的语言数据

语料库是一个包含大量来自不同领域、体裁、时间以及地域文本的语言资源集合,其中的每一个语言使用实例都是名词术语在真实语境中的具体呈现。通过运用检索工具对语料库进行深度分析,编纂者能够获取名词术语的实际使用频率、常见搭配组合、语义演变轨迹等多维度信息。这些客观数据能够有效避免单纯依靠主观经验或少量文献资料进行编纂所带来的局限性,使辞书内容更加贴近语言实际使用情况。

2.2 辅助术语提取与筛选

语料库为名词术语的提取提供 的资源。借助文本挖掘、自然语言处理等先进技术,能够从语料库中自动识别和 通过制定语法规则、词性搭配规则等,筛选出符合特定模式的 、词簇等统计指标,识别具有术语特征的词语;基于机器 词术语。多种方法的结合使用,能够显著提高术语提取的准确性 析术语在语料库中的使用频率、分布范围、稳定性以及权威性等指标,能够确定具 代表性和规范性的术语收录到辞书中。

2.3 支持准确释义与用法说明

语料库中的语境信息为名词术语的义项确定和释义撰写提供了重要依据。通过对术语在不同语境中的使用情况进行细致分析,编纂者能够准确区分其不同含义,避免释义的片面性和主观性。同时,语料库还能提供丰富的术语搭配实例和使用频率数据,帮助编纂者撰写详细、准确且具有实用性的用法说明,使读者能够更好地理解和运用术语。

三、基于语料库的名词术语辞书编纂实践

3.1 语料库的构建

3.1.1 语料的收集

语料收集是构建语料库的首要环节,其质量和范围直接影响后续的辞书编纂工作。在收集语料时,首先需要明确名词术语辞书的编纂领域和目标受众,根据这些需求确定语料来源。语料来源应具有广泛的覆盖性和代表性,不仅要涵盖学术文献、专业书籍、行业报告等专业领域文本,还应包括新闻报道、科普文章、社交媒体等大众传播文本。以编纂生物学名词术语辞书为例,在语料收集方面除了生物学学术期刊论文、生物学教材、科研实验报告等专业资料外,还应收集生物科普纪录片解说词、生物类科普公众号文章、生物爱好者论坛讨论帖等,以全面反映生物学名词术语在不同场景下的使用情况。同时,要注重语料的时效性,优先收集最新的语料,确保能够及时反映术语的最新发展和变化趋势。

3.1.2 语料的预处理

收集到的原始语料通常存在格式多样、噪声信息多等问题,需要进行预处理。预处理工作主要包括文本格式转换、去噪、分词、词性标注等操作。将不同格式的文本统一转换为便于处理的纯文本格式,去除其中的广告、注释、页眉页脚等噪声信息;利用专业的分词工具对文本进行分词处理,并通过词性标注技术为每个词语标注词性,为后续的术语提取和分析奠定基础。并且,可以使用分词工具对语料进行分词,再通过工具进行词性标注,识别出名词、动词、形容词等不同词性的词语,以便筛选出潜在的名词术语。

3.1.3 语料库的标注与管理

为了便于对语料库进行检索和分析,需要根据编纂需求对语料库进行标注。标注内容包括主题标注、领域标注、语体标注、时间标注等多个维度。例如,在主题标注中,可将生物学语料库中的文本标注为“细胞生物学”“遗传学”“生态学”等不同主题;在领域标注中,明确区分学术研究领域、科普教育领域、产业应用领域等。标注后的语料库可以通过专门的语料库管理系统进行存储、查询、更新和维护。目前,常用的语料库管理软件能够方便地实现语料的检索、统计和分析功能,为辞书编纂者提供高效的工作支持。

3.2 名词术语的提取与筛选

3.2.1 术语提取方法

名词术语提取是基 基于统计和基于机器学习的方法,以及多 模式,从语料中提取符合规则的名词 名词”等组合形式,可用于提取潜在的名词术 别具有术语特征的词语。词频较高且与其他 学习的方法则通过训练模型,让计算机自 用条件随机场、循环神经网络等模型,在大量 率。在实际应用中,通常将多种方法结合使用,以发挥各自的优势 提高术语提取的质

3.2.2 术语筛选标准

对提取出的名词术语进行筛选时,需要综合考虑多个因素。使用频率是重要的筛选指标之一,高频术语通常在专业领域内具有较高的通用性和稳定性,更适合收录到辞书中。例如,在化学领域,“元素”“分子”“反应”等术语使用频率极高,是化学名词术语辞书必不可少的收录对象。术语的领域专业性也是筛选的关键因素,确保收录的术语与辞书的主题领域紧密相关,排除与领域无关的普通词汇或其他领域的专用术语。此外,术语的规范性、稳定性以及是否被权威机构认可等也是重要的筛选依据。对于一些新兴术语,需要观察其发展趋势和应用前景,结合专家意见进行谨慎筛选;而对于已经被行业标准、权威教材或学术机构认可的术语,则应优先收录。

3.3 义项确定与释义撰写

3.3.1 义项确定

义项确定是名词术语辞书编纂的核心环 语使用实例的深入分析,梳理术语在不同语境下的含义。在确定义项 义项之间界限清晰,不重复、不交叉。以“系统”一词为例,在语料 硬件、软件和数据组成的相互关联的集合,用于实现特定功能” 够完成特定生理功能的整体”;在管理学领域表示“为实现共同目标 分结合而成的有机整体”。根据这些不同语境下的含义,可分别确定其在不同学 义项 构建完整的义项体系。

3.3.2 释义撰写

释义撰写应遵循准确、 ,用清晰准确的语言解释术语的含义。可采用定 者需求进行选择和结合。对于专业性较强、概念明 例如,“光合作用”可释义为“绿色植物利 对于较为抽象或复杂的术语,可通过描 可释义为“研究、开发用学。例如,智能语音助手能够理解人类语 决策,这些都是人工智能的实际应用体现”。同时,在释义中 释义的说服力和可读性。

四、基于语料库的名词术语辞书编纂规范

4.1 术语定义规范

术语定义应准确、清晰地反映概念的本质特征,避免模糊、歧义或冗余表述。在定义结构上,通常采用“属 + 种差”的方式,明确术语所属的类别以及与同类概念的区别。例如,“基因”可定义为“具有遗传效应的 DNA 片段”,其中“DNA 片段”是属,“具有遗传效应的”是种差。定义过程中应使用规范的语言,避免使用生僻词汇、方言或过于口语化的表达,确保定义的准确性和通用性。同时,定义应与相关学科领域的标准和共识保持一致,参考权威的学术文献、行业标准和专业教材,保证术语定义的科学性和权威性。

4.2 标注规范

标注规范涵盖语料库标注和辞书标注两个方面。在语料库标注方面,应制定详细、统一的标注规则和指南,明确标注的内容、格式和方法,确保标注的一致性和准确性。在主题标注中,应采用统一的主题分类体系,如国际标准分类法(ICS)、中国图书馆分类法(CLC)等,避免出现标注混乱的情况。在词性标注中,应使用通用的词性标注集,保证标注的规范性和可比性。在辞书标注方面,对于术语的注音、词性、领域、用法等信息,应采用规范的标注符号和格式。如注音采用《汉语拼音方案》,词性标注使用通用的词性代码,领域标注明确标注所属学科或专业领域,用法标注通过特定的符号或文字说明术语的使用场景和搭配限制等。

4.3 体例规范

辞书体例是辞书的编排形式和结构框架,直接影响读者的使用体验和查阅效率。在条目编排方面,可根据辞书的特点和读者需求,选择按字母顺序、笔画顺序、主题分类等不同方式进行编排。综合性名词术语辞书可采用字母顺序编排,方便读者快速查找;专业性较强的学科名词术语辞书可采用主题分类编排,便于读者系统地了解相关领域的术语体系。在排版格式方面,应注重清晰美观,合理设置字体、字号、行距、段距等,突出条目结构和重点内容,便于读者阅读和查找信息。索引设置是辞书体例的重要组成部分,应建立全面、便捷的索引体系,如音序索引、笔画索引、主题索引等,满足读者不同的检索需求。此外,辞书的装帧设计、附录设置等也应符合出版规范,提升辞书的整体质量和实用性。

五、基于语料库的名词术语辞书编纂实践与规范中的问题及对策

5.1 存在的问题

5.1.1 语料库建设不够完善

当前,部分语料库存在语料来源单一、代表性不足的问题。一些语料库仅侧重于收集某一类型或某一时期的文本,无法全面反映名词术语在不同场景、不同时间的使用情况,导致基于这些语料库编纂的辞书存在术语收录不完整、释义不准确的风险。同时,语料库更新周期较长,不能及时收录新出现的术语和用法,难以跟上学科领域的发展步伐。此外,语料库标注的准确性和一致性也有待提高,标注错误或不规范可能导致术语提取和分析出现偏差,影响辞书编纂的质量。

5.1.2 术语提取与筛选缺乏统一标准

目前,名词术语提取与筛选缺乏统一的标准和方法,不同编纂者或机构采用的技术和指标存在较大差异,导致术语收录不一致,影响辞书的权威性和通用性。在术语提取过程中,各种方法都存在一定的局限性,如基于规则的方法难以涵盖所有的术语模式,基于统计的方法可能误将高频普通词汇当作术语,基于机器学习的方法需要大量高质量的标注数据。在术语筛选环节,对于新兴术语和边缘术语的处理存在较大争议,缺乏明确的判断标准,导致一些有价值的术语未能及时收录,而一些不规范或临时性的术语却被错误收录。

5.1.3 编纂规范执行不严格

在辞书编纂过程中,部分编纂者对规范的重视程度不够,存在释义不准确、标注不规范、体例不统一等问题。一些辞书的释义过于简略或模糊,未能准确解释术语的核心含义和本质特征;标注信息不完整或格式错误,影响读者对术语的理解和使用;体例设计不合理,条目编排混乱,索引设置不完善,给读者查阅带来极大不便。此外,不同辞书之间在编纂规范的执行上也存在差异,缺乏统一的行业标准和质量监督机制,导致辞书质量参差不齐。

5.2 优化对策

5.2.1 完善语料库建设

拓宽语料收集渠道,加强与学术机构、行业协会、出版单位等的合作,广泛收集不同领域、不同体裁、不同地域、不同时间的文本,提高语料库的多样性和代表性。建立语料库定期更新机制,及时跟踪学科领域的发展动态,收录新出现的术语和用法,确保语料库的时效性。加强语料库标注质量控制,制定详细、明确的标注指南,对标注人员进行专业培训,提高标注的准确性和一致性。同时,利用自动化标注工具和人工审核相结合的方式,提高标注效率和质量,减少标注错误。

5.2.2 制定统一的术语提取与筛选标准

相关学术组织、行业协会或标准化机构应牵头制定名词术语提取与筛选的统一标准和规范,明确术语提取的方法、流程和筛选的指标体系。组织开展术语提取与筛选方法的研究和交流活动,鼓励科研机构和企业进行技术创新,开发更加准确、高效的术语提取工具和算法。建立专家评审机制,对新兴术语和边缘术语进行评估和审核,综合考虑术语的使用频率、稳定性、规范性、发展前景以及专家意见等因素,确定其是否应收录到辞书中。

5.2.3 加强编纂规范的执行与监督

加强对编纂人员的培训和教 使其熟悉和掌握术语定义、标注、体例等方面的规范要求。建立 进行质量把关,确保编纂工作符合规范要求。设立专门的监督机构或 及时发现和纠正存在的问题。同时,鼓励社会各界对辞书编纂工作提出意见和建议,接受社会监督,不断提高辞书编纂的质量和水平。

结语:

在加强编纂规范的执行与监督方面,还需注重编纂工作的透明度和公开性。可以通过建立辞书编纂的信息公开平台,及时发布编纂工作的进展、成果和遇到的问题,接受社会各界的监督和评价。此外,还可以定期组织编纂工作的评估和反馈活动,邀请专家、学者和用户代表参与,对辞书编纂的质量、准确性和实用性进行评估,提出改进意见和建议,推动辞书编纂工作的不断完善和发展。

参考文献:

[1] 崔煜婕 . 基于语料库的英语“ 形容词— 名词” 搭配机制研究—— 以 stalebread 为例 [J]. 海外英语 ,2025,(04):50-52.

[2] 马媛 . 以语料库为基础的英汉动词名词化对比研究 [J]. 海外英语 ,2024,(08):63-65

[3] 陈恩情. 基于语料库的高中生英语作文动词名词搭配错误研究[J]. 教育科学论坛,2024,(0

[4] 江明军, 吴勇梅. 自建小规模语料库开展化学名词教学[J]. 教学月刊·中学版( 教学参考),2024,(03):39-44.

[5] 朱琳 , 甄晓歌 . 语料库驱动下的“ 程度副词 + 名词” 现象研究 [J]. 河北大学成人教育学院学,2023,25(04):111-119.DOI:10.13983/j.cnki.jaechu.2023.04.016.

[6] 马星驰 . 语料库视域下 2023 年西安市政府工作报告英译中名词化分析 [J]. 文化创新比较研究 ,2023,7(34):27-31.