缩略图

法医STR 分型中混合样本分离算法的准确性研究

作者

于海霞 孙志敏 石晓杰 苏和巴特尔 王津鹏

内蒙古锡林郭勒盟公安局 026000

STR 分型是法医 DNA 鉴定中的关键技术,广泛应用于个体识别、亲缘关系确认和案件侦破。刑事案件、性侵或灾难现场中常采集到多个供体形成的混合 DNA 样本,等位基因重叠、峰值不均与降解等问题显著增加了分型难度和误判风险。为应对此类复杂样本,研究者提出多种混合样本分离算法,但其实际性能受限于样本质量、混合比例、降解程度以及算法本身的建模能力,准确性与鲁棒性仍需通过实证数据进行系统评估和优化。

一、混合样本分离算法原理与分类

(一)混合样本的类型与挑战

混合 DNA 样本主要包括双人混合和多源混合,常见于性侵、斗殴或公共场所物证中。混合比例既可能接近 1:1,也可出现如 1:5、1:9 等极端情况,此时 STR 图谱中弱者等位基因信号易被强者峰值掩盖,增加识别难度。此外,降解 DNA 广泛存在,表现为长片段扩增失败、峰值降低,常见于火灾、腐败或风化样本。污染与背景噪声亦会干扰等位基因判断,造成假阳性。准确解析混合样本,需依赖算法对等位基因归属、比例估计及基因型组合进行有效建模。

(二)主要分离算法介绍与比较

当前主流的混合样本分离算法大致可分为三类。基于统计建模的方法,如 LRmixStudio 和 LikeLTD,依托最大似然估计与贝叶斯推理,通过构建混合样本的似然函数,结合供体数假设、混合比例与等位基因频率数据库进行基因型判定,数学基础扎实但依赖先验假设较强,适用范围有限。基于机器学习的算法,如支持向量机(SVM)、随机森林(Random Forest)等,利用 STR 峰值、峰高比等特征训练分类模型自动识别供体归属,具有良好的非线性建模能力和适应性,但对训练样本质量和多样性依赖较大,存在过拟合风险。近年来,卷积神经网络(CNN)和图神经网络(GCN)等深度学习方法逐渐应用于 STR 模式识别,可直接处理峰图原始数据,识别复杂供体关系,展现出在高复杂度混合样本中的潜力,但受限于模型解释性差与高计算资源需求,尚未广泛应用于法医实践。

(三)算法性能评价指标

随着法医 DNA 检验技术的发展和推广,法医物证检验已在公安刑事案件侦办及后续法庭诉讼中发挥出重要作用。然而,由于犯罪现场复杂多变,加之 DNA 检测灵敏度不断提高,混合生物物证,如唾液、精斑、血液以及接触类斑痕等相互混合形成的物证,在法医物证鉴定工作中的占比逐年增高,已成为困扰法医物证专业技术人员的世界性难题 [1]。评估混合样本分离算法性能的核心指标包括准确率(Accuracy)、灵敏度(Sensitivity)和特异性(Specificity),分别反映等位基因归属的正确性、阳性识别能力和误判控制能力。F1 值可综合评价分类效果,ROC 曲线及 AUC 值用于衡量模型在不同阈值下的整体表现。此外,还应结合混合比例、DNA 浓度、降解程度等因素,评估算法对参数变化的敏感性及其运行效率,从而全面判断其实用性与稳定性。

二、混合样本分离算法的准确性实证研究

(一)双人混合样本中的算法表现

在供体数量已知、比例适中的双人混合样本中,多数主流分离算法均表现出较高的准确性。当混合比例接近 1:1 时,等位基因的峰值高度分布相对均衡,有助于算法进行基因型归属判断。统计模型如 LRmixStudio 在该条件下可获得较稳定的似然比结果,准确率一般可达到 95% 以上。机器学习模型,特别是基于随机森林或逻辑回归的方法,能有效识别峰值特征间的归属差异,具备良好的分类能力。深度学习模型通过对峰图特征的直接建模,在识别非线性复杂模式方面具有优势,其在双人混合中的分类精度可进一步提升,但对异常数据敏感度较高。

(二)多源混合样本中的识别挑战

随着供体数量的增加,混合样本的复杂度显著提升,等位基因之间的重叠现象更加严重,尤其是在高多态性位点如 FGA、D18S51、D21S11 等表现突出。传统统计建模方法在三人及以上混合样本中通常面临组合爆炸与似然函数收敛困难等问题,导致基因型推断不稳定 [2]。机器学习模型虽能捕捉部分特征间的依赖关系,但在供体信息不完全或比例悬殊时容易出现分类偏移。深度学习方法相较之下具备更强的非线性建模能力,能够提取高维峰值特征之间的微妙差异,对等位基因重叠具有一定区分能力,但训练数据规模和标签质量的不足可能限制其实际表现。

(三)对低比例与降解样本的适应能力

在供体混合比例极端失衡的情况下,如 1:5 或 1:9,弱分量供体的等位基因常因峰值过低而被掩盖,形成“隐性”成分,分离算法的识别能力显著下降。此时,算法的峰值检测灵敏度与归属阈值设置成为决定性能的关键。统计模型易将低峰值误判为噪声或遗漏,影响整体判断;而机器学习方法在训练中若覆盖不足,亦可能偏向高分量供体,出现识别偏倚。深度神经网络通过对弱峰图特征进行反复迭代学习,在一定程度上提升了对低比例供体的识别率,但在高降解样本中仍存在假阳性风险。

(四)算法稳定性与鲁棒性分析

分离算法的实际适用性不仅取决于准确性,还与其对干扰因素的鲁棒性密切相关。在背景噪声、污染、模板量变化等情况下,模型的表现稳定性成为关键。多数统计模型对于突变、污染信号或非供体噪声缺乏有效识别机制,容易产生误识别。机器学习模型的鲁棒性受训练样本多样性的制约,容易在边界样本上出现分类错误。相比之下,部分深度学习架构通过正则化与噪声增强策略,在一定程度上能够缓解背景干扰的影响,但需要大量高质量的真实混合样本训练支持,模型泛化能力尚待验证。

三、优化策略与法医学应用建议

(一)改进方向与技术集成建议

建议构建多模型集成系统,综合统计模型和深度模型预测结果,以降低偏误风险。引入等位基因频率的动态调整机制,以及家系信息辅助建模,可提升实际识别率[3]。此外,强化算法对降解峰形、杂峰的训练,构建包含降解与污染样本的标准化数据库,有助于提高模型鲁棒性。技术上可使用轻量化神经网络结构(如 MobileNet)减少计算开销,提升算法普适性。

(二)法医学鉴定实践中的应用建议

建议将不同算法嵌入现有法医实验室信息系统(LIMS),实现流程自动化。标准案件可优先采用统计方法,而复杂案件建议采用 AI 辅助系统复核。算法判断结果应明确标注“推定”“高度支持”“可疑”等分级判断,辅助法官合理采信。培训法医人员掌握算法核心逻辑与适用边界,提升其技术解读能力,有助于推动技术落地与标准化建设。

总结:混合样本分离算法是提升法医 STR 分型准确性与客观性的关键技术。现有统计模型、机器学习与深度学习方法各具优势,但在多源、高降解及复杂背景样本中的应用仍存在局限。提升算法的稳定性、可解释性和对实际检材的适应能力,结合法医操作流程进行优化,将是未来研究与司法实践中亟需关注的重要方向。

参考文献

[1] 吕铷麟 . 现场混合生物物证的 DIP-STR 鉴定体系构建及应用研究 [D]. 中国人民公安大学 ,2023.000377.

[2] 易少华 , 潘超 , 黄代新 , 等 .SNP-STR 标记在不平衡 DNA 混合物次要成分分析中的有限价值 [J]. 中国法医学杂志 ,2024,39(06):710-716.

[3] 敖兴国 , 林进藕 . 法医物证检验的研究——以 DNA 鉴定技术应用为例 [J]. 法制博览 ,2024,(07):109-111.