缩略图
Mobile Science

教学场景中实体边界歧义问题的探究

作者

罗良夫

武汉晴川学院 430204

1. 引言

在自然语言处理的过程中,实体边界歧义是一个比较常见的问题,会直接影响到用户的体验、以及各种功能的准确性,尤其在教学场景中问题更为突出。实体边界歧义是指对一段文本既可以被切分为单个实体,也可以被拆分成多个实体,从而导致起始位置与结束位置难以确定的问题。

针对实体边界标注不一致产生的置信过度问题,Enwei Zhu 与 Jinpeng Li提出“边界平滑”正则化策略—在 Span-Based 模型中将 gold span 的概率部分地分配给邻近位置,显著的提升了 8 个中 / 英文标准的准确度与鲁棒性 [1]。Cong Chen 与 Fanyu Kong 提出将中文 NER 拆分成“边界检测 + 类型判别”两阶段的模型,模型先用轻量级 CNN 提边界候选,再用 BERT 分类实体类型;在MSRA、OntoNotes4 上 F1 分别提升 1.6 和 1.3,结果显式边界模块可有效解决中文中边界歧义的问题 [2]。本文基于以上思路提出了“实体建模→实体识别→实体匹配→持续迭代”的四维闭环解决方案,从应用角度降低实体边界歧义问题对教育场景的影响。

2. 理论介绍

自然语言处理简称 NLP,是让计算机能够像人类一样处理各种对话、文章、语音等自然语言类的数据。自然语言处理原理是对离散文本进行特征表示,然后进行上下文编码,接着进行任务解码,最后得到输出。

实体边界歧义问题定义:给定字符序列 X=Cl,⋯,Cn ,需输出实体集合E={(S,E,t) |1⩽S⩽E⩽N, , t∈T} 。边界歧义指同一X 存在多组合法(S,E)切分,即后验 P(S,E|x) 呈多峰分布。

3. 解决思路

本文从实体建模、实体识别、实体匹配、持续迭代模型四个方面设计出一个闭环流程。

3.1 实体建模

实体建模的关键是对实体边界的语义与结构规则的定义,为后续识别提供可计算的特征空间。本阶段主要解决实体边界的语义建模以及实体边界模糊性的概率建模两个问题。实体边界的语义采用多模态特征融合方式进行建模,主要结合了词语、句子的特征以及语义信息构建出特征体系。比如中文 NER 中通过字符向量(如 BERT 的字嵌入)和词性标注(如动词、名词)的拼接,对实体边界的语法线索进行捕捉。

3.2 实体识别

实体识别实现了对实体边界的检测与类型分类的优化,实体识别在实体建模基础上实现了边界的定位与类型分类的协同操作。通过构建边界感知的神经网络架构实现边界标记与边界内部分类的融合。比如使用 Boundary-aware 模型使用 Bi-LSTM 提取特征,通过序列标记检测实体边界(B/E 标签),然后对边界内各个区域进行分类,以减少穷举操作带来的计算冗余。

3.3 实体匹配

通过实体匹配操作解决跨空间的语义对齐与消歧问题。实体匹配是为了将实体识别的结果映射到知识库中,该过程主要解决同名异义和同义异名等问题。通过对特征加权重叠度计算多维度相似度融合实现实体匹配。通过综合词汇重叠(Jaccard 系数)、语义关联(Word2Vec 余弦相似度)和上下文共现(TF-IDF)3个维度来计算实体间的相似度。例如,在中文内容的消歧中,通过专有名词、名词词组的加权组合,构建实体之间的相似度矩阵。

3.4 持续迭代模型

通过数据驱动的闭环优化实现模型的持续迭代。通过不确定性采样以及对抗训练增强实现模型的主动学习与数据增强,通过参数的自优化机制与架构自适应性对模型的结构进行动态调整。采用 I-SHEEP 范式以及错误分析驱动的规则更新设计闭环的迭代流程。

4. 解决方案

该方案以解决教育场景下实体边界歧义为目标,融合场景化设计、知识融合与数据反馈,确保各维度衔接顺畅、数据流转闭环。

4.1 实体建模

1. 场景化实体结构解析

根据教育场景划分实体类型,然后分析实体的构成规律,形成“场景 - 实体类型 - 结构特征”映射表。基于教育场景的语料归纳高频边界歧义类型,为后续建模提供歧义参考。

2. 多维度特征体系构建

通过预训练模型编码实体的上下文语义特征,提取实体的格式 / 语法特征,通过分析领域规则特征形成规则库。

3. 知识图谱支撑

建立实体间的关联关系,通过关系约束辅助边界判断构建轻量级知识图谱。

4.2 实体识别

1. 边界感知的模型架构设计

采用预训练模型与序列标注架构,通过预训练模型捕捉边界线索,用领域标注数据进行模型的微调。

2. 歧义实体的动态判定机制

对模型预测的实体边界,设置动态阈值,对包含子实体的复杂实体采用从大到小的分层识别策略,对置信度较低的结果通过建模阶段的规则库进行修正。

4.3 实体匹配

1. 多维度相似度计算体系

计算实体指称与标准实体的词汇重叠度(Jaccard 系数)、语义相似度(BERT 向量余弦相似度)、结构相似度(如学号格式匹配度)构建多维度相似度计算体系;

知识图谱与上下文协同对齐

利用建模阶段的知识图谱,通过实体关系辅助匹配,对未匹配的新实体,通过人工审核后加入标准库,同步更新词典与知识图谱,实现知识图谱关联的校验。

4.4 持续迭代

1. 反馈数据采集与分析

在应用端收集用户对实体边界的修正,将错误类型分类,建立用户交互反馈机制。

2. 主动学习与数据增强

优先选择模型低置信度的样本进行人工标注,补充训练集对抗性数据增强,生成难样本用于模型微调,进行不确定性采样。

3. 全链路动态优化

用新增的标注数据微调模型,更新模型的参数。根据错误的分析结果,补充领域规则。将新实体与关联关系加入到知识图谱中,强化后续的建模能力与匹配能力。

总结

本文通过建立实体建模、实体识别、实体匹配、持续迭代的闭环方案解决实体边界歧义教育场景应用的影响。通过场景化实体结构解析、多维度特征体系构建进行建模,通过边界感知的模型、歧义实体的动态判定机制实现实体识别,建立多维度相似度计算体系进行实体匹配,通过反馈数据采集与分析、主动学习与数据增强、全链路动态优化进行模型的持续迭代,模型中的各环节适配教育场景,能较高效的解决实体歧义。

参考文献:

[1]Zhu E., Li J. Boundary Smoothing for Named Entity Recognition[C].ACL 2022: 7096-7108.

[2]Chen C., Kong F.Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition[C].ACL-IJCNLP 2021 (Short Papers): 20-25.

[3]Yuan F, Peng Y, Huang Q, Li X. A bi-directionally fused boundary aware network for skin lesion segmentation[J]. IEEE Transactions on Image Processing, 2024, 33: 6340-6353.