基于KNN 的脑卒中患病风险识别
霍圣奥 何金泽 关思佳 张钥迪 吴体泽
大连科技学院信息科学与技术学院 大连 116052
1. 引言
脑卒中(中风)是全球常见的致死与致残疾病之一,在中国的发病率和疾病负担尤为突出。据统计,从 2010 年至 2020 年,我国卒中发病率总体保持稳定,患病率整体呈上升趋势。由于脑卒中涉及高血压、糖尿病等多种慢性疾病的交互作用,且临床表型复杂多样,传统依赖经验的风险评估方法难以满足个体化预测需求。
近年来,随着医疗数据资源的不断丰富与计算方法的持续进步,机器学习技术在疾病预测领域得到了广泛应用。相关研究已利用随机森林、支持向量机等算法开展多种疾病的风险建模与智能预测,初步展现出良好的实用价值与临床辅助潜力。
在此基础上,本文引入 K 近邻算法(K-Nearest Neighbors, KNN),构建面向人群健康数据的脑卒中风险预测模型。KNN 作为一种非参数监督学习方法,具有实现简单、对数据分布假设要求低等特点,适用于特征分布复杂、样本规模有限的医疗场景。本研究系统评估了 KNN 在脑卒中预测任务中的性能表现,旨在为个性化疾病预警与临床辅助决策提供新思路。
2. K 近邻算法
K 近邻算法(K-Nearest Neighbors, KNN)是一种基础且常用的监督学习方法,其核心思想基于“物以类聚”的原则,即通过测量样本间的距离来判断待分类样本的类别。在医疗领域,KNN 可通过计算个体与历史病例的相似度,辅助医生识别高风险人群,从而更及时地制定预防与干预策略。相较于传统建模方法,KNN 具备较强的直观性与可解释性,能够以空间距离的形式呈现病例间的相似关系,同时保留关键生理指标的原始特征信息,为临床诊断提供可视化、可操作的决策支持。
在脑卒中预测任务中,患者的发病风险通常受到多种因素的共同影响,包括年龄、血压、血糖、体重指数及生活方式等,呈现出高度的特征异质性。KNN 无需显式建立参数化模型,能够灵活处理高维特征空间中多变量间的非线性关系,天然适用于此类多维度、多层次信息协同决策的风险评估场景。因此,本文采用 KNN 算法构建脑卒中风险预测模型,旨在探索其在临床风险筛查中的可行性与有效性。
3. 基于KNN 的脑卒中风险预测模型构建与分析
3.1 数据预处理
在数据预处理阶段,首先对原始数据进行清洗与整理,共获得4891 条有效样本记录,包含 11 个变量,其中 10 个为输入特征,1 个为目标变量(是否患有脑卒中)。为提升模型训练效果,对所有数值型特征进行标准化处理,以消除量纲差异对距离计算的影响。随后将数据集按 7:3 的比例划分为训练集和测试集,并设置随机种子以确保结果的可复现性。
3.2KNN 模型构建与应用
本文选择 K 近邻作为分类算法,并将邻居数(K 值)设定为 5。模型在预测时,通过计算测试样本与训练集中所有样本之间的距离,选取距离最近的 5 个训练样本作为“邻居”,依据这 5 个邻居的类别标签,通过多数投票机制确定待预测样本的分类结果。
3.3 模型评估与结果分析
以准确率(Accuracy)为主要评估指标,所构建的 K 近邻(KNN)模型在测试集上表现良好,准确率达 95.0% ,显示出较强的整体分类能力。进一步分析发现,该模型在识别脑卒中高风险个体方面具备一定能力,敏感度为 61.8% ;对非脑卒中人群的识别特异性达到 97.2% ,排除率较高。特征重要性分析表明,年龄、血糖水平和 BMI 构成“风险三角”,是中风预测的关键变量,这与世界卫生组织(WHO)脑卒中预防指南高度一致。KNN 训练效率较高,决策边界具备良好可视化能力,有助于提升模型的可解释性和医生的临床理解。
4. 总结
脑卒中作为一种高致残率、高致死率的重大慢性病,早期风险预测对于降低其发病率和改善患者预后具有重要意义。本研究基于多维度临床数据,构建 KNN 模型用于中风风险识别。通过特征标准化与最优邻域参数选择,模型有效识别出年龄、血糖、BMI 为核心风险因子,并在测试集中实现 95.0% 的预测准确率与 97.2% 的特异性。模型的空间决策边界可视化进一步揭示了“年龄- 血糖”风险梯度特征,为高危人群识别提供可操作依据。
[ 参考文献]
[1] Z hou L , W ei Y , Ge Y ,et al.Global, regional, and national burden of stroke attributable to extreme low temperatures, 1990–2019: A global analysis[J].International Journal of Stroke, 2024, 19(6).
[2] 《中国脑卒中防治报告2021》编写组 , 王陇德.《中国脑卒中防治报告 2021》概要 [J]. 中国脑血管病杂志 , 2023, 20(11):783- 792.
[3] 丁婉婉 , 方俊涛 . 基于优化后随机森林和 X GBoost 模型的脑卒中风险预警研究 [J/OL]. 湖北大学学报 ( 自然科学版 ),1- 14[2025- 07- 21].
[4] 张子娇 , 丁顺晶 , 赵地 , 等 . 基于传统方法和机器学习的临床模型预测首次脑卒中:现状与前景 [J]. 协和医学杂志 ,2025,16(02):292- 299.
[5] 万红燕 , 刘婕 , 郝舒欣 , 等 . 基于随机森林算法的南京地区脑卒中风险预测模型构建 [J]. 环境卫生学杂志 ,2024,14(07):590- 596.
作者信息:
姓名:霍圣奥,出生年月 2005.11.17,男,蒙古族,籍贯:辽宁省阜新市,
所在院校:科技学院,学历: 本科,研究方向:大数据分析姓名:何金泽,出生年月2006.11.06,男,汉族,籍贯:辽宁省鞍山市,所在院校:科技学院,学历: 本科,研究方向:大数据分析姓名:关思佳,出生年月2007.01.12,女,汉族,籍贯:河北省邢台市,所在院校:科技学院,学历: 本科,研究方向:大数据分析姓名:张钥迪,出生年月1995.11.8,女,满族,籍贯:辽宁省市,所在院校:科技学院,职称:助教,学历:硕士,研究方向:
大数据分析
姓名:吴体泽,出生年月 2005.08.07,男,汉族,籍贯:山东省嘉祥县,所在院校:科技学院,学历: 本科,研究方向:大数据分析课题项目:2025 年科技学院大学生创新创业训练计划项目;课题名称:《脑安智驭—中风预警引擎》