缩略图
Frontier Technology Education Workshop

基于随机森林算法的手语动作识别技术

作者

彭梅

广州工商学院 广东广州 510000

前言:伴随信息交互技术的迅猛进步,手语作为助力听障人群与外界建立沟通的重要桥梁,其自动识别技术在无障碍交流范畴的价值日益彰显,手语动作识别的目标是借助计算机技术把手语动作转变为文字或语音内容,构建起消除沟通阻碍的通道,机器学习算法的持续创新为手语动作识别给予了新的技术助力,其中随机森林算法借助其强大的分类效能、对高维数据处理的优势以及良好的抗过拟合特点,逐渐成为此领域的研究焦点。多样化的数据环境里,手语姿态蕴含大量的空间特性与时间变化信息,如何借助随机森林算法的特点达成对这些信息的高效挖掘和精确识别,成为促进手语识别技术迈向实用阶段的核心要点。因此持续开展相关方面的研究,不但可以提高听障群体的社会融入程度,还能推动人机交互领域的技术革新。

1 随机森林算法概述

随机森林算法作为机器学习手段,其依托于集成学习理念,它的关键是通过搭建多棵决策树并整合其输出成果,以此增强模型的泛化水平和分类表现,该算法构建过程主要涵盖两个关键的随机化环节:一是对训练样本开展随机抽样,也就是利用bootstrap 方法从原始数据集里有放回地抽取若干子样本,每一个子样本都用来训练一棵彼此独立的决策树,这种抽样手段让每棵树的训练数据产生了差异,从而减轻了模型对特定样本的依赖;二是特征筛选的随机化操作,在每一棵决策树各个节点开展分裂操作时,并非运用所有特征开展评估,而是从所有特征里随机挑出一部分当作候选的分裂特征,接着从中选出最佳分裂点,该操作进一步提升了各决策树之间的独立性,降低了高相关性特征给模型带来的影响[1]。

从组成结构来看,随机森林是由众多 CART(分类与回归树)决策树组合而成的,每棵树皆按照上述随机化规则自主生长,并且在训练期间不开展剪枝操作,以便留存决策树的完整结构。分类工作里,最终的分类结果借助多数表决机制来确定,也就是汇总所有决策树输出的类别,选取得票数量最多的类别当作最终分类结果;回归分析任务里,则采用均值作为预测的最终结果。

2 手语动作识别中随机森林算法的作用

手语动作识别范畴,随机森林算法借助其特有的性能优势,在多个关键节点发挥出重要效能,为提高识别系统的稳定性与有效性提供了技术保障。

特征处理阶段,随机森林可有效处理手语动作数据存在的高维度与复杂问题,手语动作识别所涉及的特征具有多种类型,既有手部关节的空间位置、夹角这类几何特征,又包含动作的速率、加速率等动态特征,这些特征常常呈现出高维、非线性的特质,无需借助人工进行特征筛选,可直接处理高维度特征,利用内部的特征重要性评估手段,自动找出对分类结果影响较大的关键特征,为后续的分类决策筑牢根基[2]。

分类决策的范畴内,随机森林为手语动作的精准辨认提供了可靠的模型保障,手语动作存在不少状况,比如众多相似动作容易混淆、动作边界含混不清等,对分类模型的辨别能力有较高的要求,随机森林依靠多棵决策树的集成判断,可整合不同方面的分类依据,增强对细微动作差别识别水平。

3 基于随机森林算法的手语动作识别策略

3.1 随机森林特征筛选优化手语识别

手语动作含有大量高维的特征,有些特征与动作类别的关联性不强,甚至会造成干扰,加大模型计算负荷并降低识别的精准度,需借助特征筛选留存核心信息,增进模型效率。

针对收集的手语动作初始数据开展特征提取工作,其中包含手部21 个关节的三维坐标情况、30 组关节相互间的角度、运动轨迹的 20 个曲率指标、15 个速度变化速率等,构建出含有128 个特征的初始特征集合,搭建基础的随机森林模型,把初始特征集合当作输入项,设定决策树的数量为150 个,选用 Gini 指数作为节点分裂的依据,开展模型训练。训练结束以后,提取由模型输出的特征重要性评分,该评级是通过算出每个特征在所有决策树分裂进程中对不纯度减少的总贡献数值确定。将特征重要性的阈值设定为 0.005,挑选出评分超出该阈值的 35 个特征,构成候选特征子集,此时累积重要性所占比例为 92% 。利用候选特征子集对随机森林模型进行重新训练,通过开展5 折交叉验证的方式来评估模型性能,相较于初始模型,识别的准确率提高了 6.3% 训练所需时间缩短了 41% ,将经过筛选的35 个特征集投入到最终的手语动作识别模型中,实现特征优化步骤。

3.2 动态加权随机森林手语分类

传统随机森林当中,每一个决策树的权重都相同,然而不同决策树对手语动作分类的作用存在差别,有些决策树或许会由于训练数据有偏差,进而造成分类误差较大,对整体识别效果造成影响,动态加权可彰显优质决策树的功效,提高模型的分类精准度。

可以搭建一个由 200 棵决策树构成的随机森林模型,利用涵盖 5000 个样本的手语动作数据集开展训练工作,记录每一棵决策树在 1000 个样本的验证集合上的分类精确率,其中最高正确率达到 94.2% ,最低正确比率为 78.5% ,平均精准度为 86.7‰ 。按照分类准确率来计算每棵决策树的权重,每棵树的权重是其准确率和所有树准确率总和的商,权重最大的决策树占比为 1.8% ,最低的占 0.3% ,当开展手语动作识别工作时,每一棵决策树都会给出针对 100 种动作类别的预测概率,把预测概率和对应树的权重进行相乘运算,获得经过加权处理后的预估概率。把所有决策树的加权预测概率加起来,算出各个类别的总加权概率,综合加权概率最大的类别便是此手语动作的识别结果,每处理完毕 200 个新样本后,再次计算各决策树针对新样本的分类准确率,并且依据此来调节权重,让调整后的模型在新样本上的识别精准度波动范围控制在 2% 以内,利用对比实验证实动态加权策略的有效性[3]。

3.3 迁移学习增强随机森林泛化性

开展手语动作识别工作时,不同来源的数据集(例如由不同采集设备获取、不同人群使用的手语数据)之间存在分布上的差异,直接训练出来的模型在新数据集上的泛化能力欠佳,迁移学习可借助既有数据集的知识,提高模型对新数据集的适应水平。

挑选源数据集为拥有 10 万样本的公开 ASL 数据集,目标数据集确定为某特定行业的 5000 个专业手语样本组成的数据集,两种数据集特征分布的KL 散度值为 0.63,在源数据集上开展基础随机森林模型的训练工作,该模型由 300 棵决策树构成,训练结束之后,把模型的决策树结构、节点分裂特征与阈值等关键参数保存下来,该模型在源数据集测试集的准确率是 91.3%0 对目标数据集开展特征提取工作,保证它的 128维特征和源数据集相同,借助特征映射处理把维度差异控制于 3% 以内。采用模型微调的手段,把基于源数据集训练出来的模型当作初始模型,用目标数据集对模型做二次训练,将底层 200 棵决策树的参数予以固定,仅仅调节顶层 100 棵决策树的节点分裂参数,在训练期间加入 L2 正则化项,正则化系数设为 0.01o 通过核算源数据集与目标数据集在特征分布上的差异,对决策树特征重要性予以修正,使目标数据集独有的特征重要性提升 15%~20% ,并借助目标数据集的 1000 个测试样本对迁移后的模型性能展开评估,进一步提高识别的精准率。

3.4 随机森林与LSTM 集成的动态手语识别方式

动态手语动作呈现出明显的时间序列特性,单个随机森林没办法把握动作在时间层面的关联,造成对持续时间较长或者包含复杂运动路径的动作识别精准度较低,将随机森林与LSTM 加以整合,可把前者具备的特征分类本领和后者拥有的时序建模本领融合起来,增强动态手语识别成效。

对动态手语动作的视频开展预处理工作,以每秒 30 帧的速率抽取 150 帧图像,从每一帧里提取手部 21 个关节的三维坐标、运动速度、加速度等 63 项静态特征,生成一个 150×63 的特征矩阵,创建一个随机森林模型,由100 棵决策树组成,把每帧的63 个静态特征输送到模型里,得出该帧对应100 种动作类别的预测概率,进而得到一个 150×100 的概率矩阵。把概率矩阵当作 LSTM 的输入项,LSTM 网络设定 2 层隐藏层级,每一层有 64 个神经元,运用 tanh 激活函数,利用门控机制探究帧与帧之间的时序依赖关系,输出整个动作序列的时序分类概率值,运用加权融合的办法,将随机森林产出的单帧概率(权重 0.3)与 LSTM 输出的时序概率(权重 0.7)进行整合,得出最终的动作类别概率分布。在模型训练期间,采用交叉熵损失函数,采用 Adam 这个优化器,把学习率设定为0.001,开展 50 次迭代,让模型的损失数值稳定在 0.12 以内,以提升识别准确率。

结束语:本文对基于随机森林算法的手语动作识别技术进行系统性剖析后,提出基于特征重要性的筛选优化、动态加权模型构建、结合迁移学习的跨数据集识别、集成 LSTM 的时序建模等措施,能有效提升手语动作识别的精度、效率与泛化能力,为该领域的技术应用提供了切实可行的路径。未来手语识别与无障碍交互领域的革新中,相关人员应积极寻求算法优化与实际场景的深度融合,探索多模态数据融合下的随机森林改进策略,同时加强与听障群体实际需求的对接,以推动手语动作识别技术向更智能、更实用的方向发展,为构建无障碍信息环境贡献力量。

参考文献:

[1]田丕承.基于深度学习的连续手语识别及翻译研究[D].湘潭大学,2024.

[2]郭乐铭.连续手语识别的视觉模型研究[D].天津理工大学,2024.

[3]魏贵延.基于跨模态监督学习的毫米波雷达手语识别技术研究[D].重庆三峡学院,2024.

项目基金: 2025 年校级横向項目“基于人工智能的手语识别系统”(项目编号:FWB2025031107)

作者简介:彭梅(1975.9),女,土家族,籍贯:湖南保靖,学历:硕士,副教授,主要从事人工智能、计算机应用研究。