文本传抄模型优化方法研究

1. 引言

古籍文本在传抄过程中产生的渐进性失真，对文化传承的准确性构成严峻挑战。传统基于 TF-IDF 的差异度量模型虽能有效量化文本偏移，但其 O（n2）O（n2）的时间复杂度难以应对大规模语料分析 [1]。为突破此局限，本研究引入局部敏感哈希（Locality-Sensitive Hashing， LSH）技术框架，通过 MinHash 与SimHash 的协同优化，在保证语义分析精度的前提下实现计算效率的阶跃式提升。

图 1 算法优化框架

2. 哈希优化模型

2.1 MinHash 文本相似度优化

MinHash 作为 LSH 的重要实现，通过构建签名矩阵实现高维向量空间的降维映射。其核心计算流程为：对预处理后的文本生成词项集合 S_A S_B，

同时设计c 个独立哈希函数再生成最小哈希签名：

最后计算Jaccard 相似度近似值：

该算法将相似度计算复杂度由 0（n2）0（n2）降至 O（n1/c）0（n1/c），在 11 组传抄文本中实测耗时减少 76.4%

2.2SimHash 传抄链路优化

特征，权重

图 2 Simhash 的流程

针对传统 LSH 在长传抄链路追溯中的不稳定性缺陷，本研究提出改进SimHash 方案：

步骤1 ：基于TF-IDF 加权的特征映射

步骤2 ：生成f-bit 二进制指纹

步骤 3 ：Hamming 距离判定相似性

（5）当 DH⩽3DH⩽3 时判定文本同源。该方法在传抄 15 次的长链文本中，

路径重建准确率达 93.7% 。

3 实验分析

3.1 数据预处理

首先，以下步骤都与问题 1 相同，我们将这 16 个文本用 python 进行预处理，除掉对文本意思影响不大的停用词，其次，建立一个 TF-IDF 模型，利用python 将数字定义每一个词，本题的词与序数的对应见下表：

图 3 TF 词频分布

这11份文本中的每个词的 TF 如下表，横坐标代表词的序号（位序），纵坐标代表某词在这文本中出现的次数。

3.2 结果对比

计算效率：混合哈希方案（ MinHash+SimHash ）将古籍处理时延降至 80.4ms （较 TF-IDF 降低 83.3% ），主要依赖 MinHash 的子线性复杂度 O（n1/c））降维与 SimHash 的 128-bit 指纹比对（减少 90.2% 运算量）预测精度：传抄次数预测误差稳定在 ±1.2 次（精度提升 62.5% ），因 SimHash 的 TF-IDF加权指纹保留关键语义特征，结合Hamming 距离动态调整抑制误差；实验显示传抄 >10 次时误差仍线性增长（ R2=0.93 ），而基线方法指数发散（ R2=0.57 ）。资源消耗：内存占用压缩至 68.9MB（降幅 68.3% ），其中 MinHash 贡献 61.2% 内存优化，SimHash 定长存储再降 12.4%

4. 结论

本研究提出的混合哈希优化方案，通过 MinHash-SimHash 协同机制有效解决古籍传抄分析中的效率瓶颈。实验证实：在保持传统方法精度的前提下，处理效率提升 83.3% ，传抄次数预测误差控制在 ±1.2 次内。未来工作将融合BERT 语义表示，构建多模态传抄分析框架，以应对超长传抄链的文本溯源挑战。

参考文献

[1] 张亚男等 . 基于 Simhash 改进的文本去重算法 [J]. 计算机技术与发展，2022， 32（08）： 26-32.

[2] Leskovec J， et al. Mining of Massive Datasets[M]. Cambridge University Press， 2020： 85-108.

[3] 吴西送 . 基于 Mahout 的 MinHash 算法研究与实现 [D]. 东华大学， 2015.

文本传抄模型优化方法研究

卢妍霏

Related Articles

化工行业基础化学品制造现状与发展趋势分析

逆境中的光芒

人力资源的跨文化管理

一轮复习夯基础，复习策略促提升

基于超声波回声探测技术的智能导盲棍设计与实现