基于YOLOV8+DeepSeek的手语检测系统
路鹏程 雷敬婕 李玉鑫
桂林信息科技学院,广西 桂林 541001
基金项目:大学生创新训练项目,项目名称:手语图像识别与翻译系统(项目编号:202313644003)。
作者简介:路鹏程,男,本科。研究方向:软件工程。
摘 要:基于YOLOV8+DeepSeek的手语检测系统是一项融合深度学习、计算机视觉技术和大语言模型的智能系统,旨在将手语姿态实时转换为文本,并利用大语言模型实现文本成句,以解决聋哑人士与健听人士之间的沟通障碍。系统通过构建大规模多样化手语数据集,结合深度学习模型,优化手语特征提取与识别算法,基于python与Java语言,采用前后端分离的B/S结构开发了支持实时翻译与AI建议的手语检测系统。
关键词:深度学习;手语检测;B/S结构;YOLOv8
0 引言
据世界卫生组织统计,全球不同程度听力受损的人口超15亿,其中,中国是听障人士最多的国家,达2780万人,占全国残疾总人数的30%以上[1]。这相当于全国每50个人当中,就有一位听障人士[2]。现有的手语识别技术存在数据集单一、算法泛化能力不足等问题,难以满足实际场景需求。本研究以深度学习为核心,结合视觉识别模型,构建了一套高效、精准的手语图像识别与翻译系统。该系统通过优化算法模型、建立多样化数据集及开发便捷应用,实现了手语精准识别与AI建议,显著提升了手语翻译的准确性与实用性,具有重要的社会意义与技术价值。
1 手语检测系统现状
手语检测技术从早期依赖数据手套等硬件设备逐渐转向基于视觉的无接触式识别[3]。早期系统多采用数据手套结合位置跟踪器,虽精度较高,但存在成本高、使用不便等局限[4]。近年来,基于计算机视觉的算法成为主流,例如浙江理工大学团队研发的毫米波雷达装置,通过捕捉手部细微动作并结合语义重构模块,实现手语到文字的秒级转换,尤其注重情感传递与复合语言(动作+表情+空间位置)的连贯性处理[5]。但在人工智能时代仍显得过于单一,因此为顺应时代技术潮流,研究基于YOLOV8+DeepSeek的手语检测系统具有显著现实意义。
2 总体设计
针对手语交互场景中的实时检测与智能分析需求,本系统设计了融合计算机视觉与自然语言处理技术的手语检测系统。该系统采用模块化架构设计,主要由实时交互检测模块、静态图像分析模块、数据存储模块构成,系统通过YOLOV8算法实现高精度手语动作检测,结合DeepSeek模型生成语义解释与交互建议
3 系统软件设计
3.1 数据存储模块
模块采用MySQL 8.0关系型数据库,关键数据表设计如下:
手语特征表存储YOLOV8提取的手语动作特征向量、标准手势语义标签及三维关节点坐标数据,建立空间索引以支持相似度检索。
模型参数表动态管理YOLOV8与DeepSeek的模型版本、权重文件路径及超参数配置,支持热更新机制。
3.2 实时交互模块
该模块由Python服务驱动,包含多线程视频处理流水线。通过OpenCV捕获USB摄像头或RTSP流输入,加载量化后的YOLOV8模型,基于CUDA加速实现每秒30帧的实时处理。检测算法融合时序上下文信息,通过LSTM网络对连续手语动作进行序列建模,输出动作分类结果及关节点热力图。将检测结果JSON数据通过gRPC推送至Java服务,触发DeepSeek API调用生成自然语言解释。
3.3 静态图像分析模块
该模块通过HTTP前端上传JPG/PNG格式图片,Java服务进行文件哈希校验与尺寸归一化处理后,调用Python服务的/api/analyze接口。YOLOV8检测器输出关节点坐标后,系统执行计算手指弯曲角度、手掌朝向等16维几何特征,将特征向量与手势特征库进行余弦相似度匹配。通过DeepSeek模型结合匹配结果生成AI自然语言描述建议。
4 部分功能测试效果
测试环境:Ubuntu 22.04 LTS + NVIDIA RTX 3090 + CUDA 12.1,YOLOV8模型输入分辨率640×640,DeepSeek-7B模型部署于8×A100集群。
针对静态图像分析模块的测试,设计了五个测试用例,如表2所示,目的为检验系统核心功能是否存在异常值与不稳定性。按照表2进行测试,测试结果符合预期。
5 结语
本研究构建的融合视觉感知与语义理解的手语检测系统,突破了传统手语识别技术在动态交互与语义转化层面的局限性。相较于基于规则匹配或单一视觉特征的解决方案,本系统通过YOLOV8的时空特征捕捉能力与DeepSeek的语境建模优势,实现了从孤立手势识别到连续语义解析的技术跨越。
参考文献
[1]覃博铭,符文丝,唐梓航.基于YOLOv5的手语手势识别系统[J].现代信息科技,2025,9(06):121-125.
[2]刘星辰,杨瑞,刘林鑫,等.基于深度学习的中国通用手语识别系统[J].电脑与电信,2024,(11):43-47.
[3]李宇楠,耿熙,苗启广.基于计算机视觉的手语识别与翻译研究综述[J/OL].微电子学与计算机,1-23[2025-04-09].
[4]段智慧.基于深度学习的手语识别系统研究与实现[D].内蒙古大学,2024.
[5]万富瑞.基于深度学习的手语识别算法研究[D].河南大学,2024.