缩略图

基于局部熵改进的机器学习分类

作者

黄宇 余文婕 蒋粤 朱丽涛 郭乃瑶 邓飞

1.昆明学院, 650214 昆明; 2.云南省高校数据治理与智能决策重点实验室,650214 昆明

摘 要 针对传统机器学习分类算法在心脏病诊断中准确率较低的问题,本文提出了一种基于局部熵的新方法。该方法首先通过计算局部熵来有效衡量样本间的相似性,从而增强数据的表示能力;随后,运用随机森林、支持向量机和逻辑回归等多种算法进行实验验证;最终,实验结果表明,结合局部熵的模型在心脏病分类任务中显著提高了准确率、精确率和召回率,有效验证了该方法的优越性。本文不仅总结了局部熵在机器学习领域中的应用潜力,还展望了未来的研究方向,并强调了该方法在心脏病早期预测与治疗中的重要价值及潜在应用前景。

关键词机器学习、心脏病预测、局部熵

1引 言

1.1研究背景与研究意义

心脏病是一种常见的慢性疾病,其致死率极高。传统医疗决策方法在分析和诊断心脏病时面临诸多挑战。随着大量临床检查、治疗记录和电子病历数据的积累,信息技术的应用为医疗诊断和病理决策的辅助提供了强有力的数据支持。机器学习算法通过对大规模医学数据的有效提取与处理,能够为疾病的诊断提供准确的判断,预测疾病发生的概率以及患者的病历。结合相关领域的专家知识,并合理平衡潜在的数据处理与分析,能够提升疾病诊断的结果,从而推进疾病的预防、诊断及研究的发展,成为各个领域“智能决策”应用的关键支撑。

1.2国内外研究现状

这些研究对本项目有着重要的启发。一方面,它们验证了机器学习算法在心脏病预测领域的可行性和有效性,为本项目选择机器学习方法提供了有力的理论和实践依据。另一方面,其存在的不足也为项目指明了改进方向。针对其他研究中算法对数据特征关系捕捉不足的问题,本项目引入局部熵的概念,通过计算局部熵来衡量样本间的相似性,捕捉数据的局部结构信息,以提升模型对复杂特征关系的处理能力。同时,本项目在算法选择和参数优化上,将综合考虑多种因素,避免算法陷入局部最优解,提高模型的稳定性和泛化能力,力求在心脏病预测的准确性、可靠性上取得更好的成果,为心脏病的早期诊断提供更有效的支持。

1 信息熵与局部熵

信息熵的概念最早由克劳修斯在热力学中提出,用以描述系统的无序程度,称为热熵。1948年,克劳德·香农在信息论中引入了类似的概念,称为信息熵或香农熵,用以量化信息的不确定性。信息熵衡量的是随机变量的不确定性,熵值越大,表示不确定性越高。信息熵在多个学科领域得到广泛应用,包括通信、统计学、物理学、生物学和神经科学等。

局部熵是在信息熵的基础上发展而来的一种度量,关注数据样本的局部邻域中的不确定性。与全局信息熵不同,局部熵的计算主要依赖样本的邻居分布,而非整个数据集的全局概率分布。局部熵算法可以作为特征提取和增强工具,通过捕捉数据的局部结构信息,弥补原始特征的不足,从而提高机器学习模型的分类性能。其核心思想是衡量样本在其邻域中的分布混乱度:若一个样本的邻居属于不同类别,局部熵会较高;反之,若其邻居属于同一类别,局部熵会较低。

2实验与分析

本研究选取了七种经典的机器学习算法,包括逻辑回归、支持向量机、朴素贝叶斯、决策树、随机森林、梯度提升机和神经网络,对目标患者标签进行分类预测。为了确保不同特征之间的可比性,我们对数据进行了虚拟变量变换操作,以统一数据量纲。为了全面评估模型的分类预测能力,我们选取了分类预测准确率、精确率、召回率和F1分数作为模型表现的评价指标。各算法在验证集上的表现将被比较分析,以评估其分类预测能力。在本研究中,支持向量机(SVM)算法采用了两种不同的核函数:高斯核和多项式核。高斯核因其在处理复杂且非线性数据集方面的优势而被选用,它能够自动寻找合适的决策边界,对于大多数实际问题展现出良好的适应性,尤其是在数据集较为复杂的情况下。相对地,多项式核则适用于数据中存在明确多项式关系的情形。

综合来看,基于局部熵改进的机器学习分类方法在心脏病预测任务中展现出了一定的优越性,结合局部熵的模型在泛化能力和预测精度上具有优势,能够为心脏病诊断提供更可靠的参考。但在实际应用中,需要根据具体情况选择合适的算法,以充分发挥局部熵的作用,提高心脏病预测的准确性。同时,本研究也为后续进一步优化心脏病预测模型以及拓展局部熵在其他医疗领域的应用提供了有价值的参考依据。

3 结语

为了进一步提升心脏病预测的准确性,本研究针对Kaggle提供的心脏病数据集,建立了结合局部熵的多种机器学习模型。通过将数据集按照8:2的比例划分为训练集和测试集,我们首先对模型进行训练,然后使用局部熵技术增强模型的特征表示能力。实验结果表明,引入局部熵的模型在预测性能上显著优于未引入局部熵的模型,尤其是在召回率和F1分数上。具体而言,决策树、支持向量机(SVM)、逻辑回归、GBM、朴素贝叶斯、神经网络(MLP)和随机森林等模型在引入局部熵后,其性能均有显著提升。这表明局部熵能够有效地提升模型对心脏病的预测能力,尤其是在处理不平衡数据集时。结合局部熵的模型在泛化能力和预测精度上均优于其他二分类模型。

然而,Kaggle提供的心脏病数据集可能存在一定的局限性,例如数据的时效性和覆盖范围。该数据集年份较早,并没有涵盖最新的心脏病患者情况,导致预测模型在时效性上有一定的欠缺。此外,数据集可能未能充分覆盖所有类型的心脏病患者,影响了模型的泛化能力。因此,获取更多患者的最新数据并用于模型的训练是未来研究的重点工作。

这项工作得到了云南省大学生创新创业训练计划项目的支持,项目编号为S202311393031。

参考文献

[1]吴霆辉.基于GA-SVM的心脏病诊断模型[J].信息与电脑(理论版),2023,35(04):94-97.

[2][1]徐光勇.基于卷积神经网络和机器学习的心脏病预测融合模型研究[D].南昌航空大学,2023.DOI:10.27233/d.cnki.gnchc.2023.000058.

[3][1]乔慧.基于数据挖掘分类技术的心脏病预测方法研究[D].兰州理工大学,2023.DOI:10.27206/d.cnki.ggsgu.2023.001008.