缩略图
Liberal Arts Research

融合注意力机制的人脸表情识别

作者

霍昕旸 张家宁 唐德乾 张艺喆

天津工业大学 天津市 300000

摘要 传统人脸表情识别方法在处理干扰性人脸图片时正确率欠佳,因多聚焦完整面部信息特征提取,忽视局部关键与抗干扰特征。本文受相关研究启发,提出融合注意力机制的 VGG19 技术用于人脸表情识别。改进的 VGG19 模型在池化层后及全连接层前引入 Dropout 防过拟合,减少全连接层,其后添加CBAM 模块增强对关键特征区域关注。实验采用 FER2013 数据集,准确率达到73.5%,相较于传统VGG19模型,准确率提高约8%,整体优于 AMF - VGG16、S - ResNet等模型,具有更高的鲁棒性和泛化能力。

2引言

面部表情能够传达出丰富的非语言信息,在人机交互,智能安防,情感计算,教育,医疗等诸多领域均能够发挥重要作用。例如将学习情感作为学习分析的重要因素来分析学生状态[1],将儿童表情识别和理解能力作为衡量是否患有自闭症的重要指标之一[2],均可通过表情识别进行辅助分析。

已有使用VGGNet[3]方式进行人脸表情识别,但是在对于具有干扰性的人脸图片识别方面正确率有待提高。其主要原因是传统方法多侧重于对于完整面部信息的特征提取与学习,缺少对于局部关键区域和抗干扰特征的有效挖掘。

注意力机制能够模仿人类视觉系统的选择性关注特性,以增强模型对信息的捕捉与理解能力。目前在甘蔗幼苗检测[5],多光谱光学元件疵病[6]等方面已取得成功应用,使得相关检测正确率上升,受以上研究内容启发,本文提出使用融合注意力机制的VGG19技术进行人脸表情识别,融合注意力机制,便于模型在处理图像时自动地将重点放在与表情相关的显著区域和特征上,有效提升干扰性人脸图片的识别准确率。

3网络模型

在人脸表情识别任务中,为了显著提升模型对人脸表情特征的学习能力并优化识别准确率,针对经典的 VGG19 模型实施了多方面的改进策略,网络结构如图3 - 1 所示。

首先,在每个池化层之后以及全连接层之前引入 Dropout 技术,该策略能够随机地使部分神经元失活,从而有效防止模型在训练过程中对特定神经元过度依赖,极大地增强了模型的鲁棒性与泛化能力。

其次,考虑到原 VGG19 模型的全连接层较易引发过拟合问题,将原本的三层全连接层减少为一层,有效降低了模型的复杂度并减轻了过拟合风险。

此外,在模型的全连接层之后添加注意力机制 CBAM 模块,此模块能够自动聚焦于人脸表情图像中的关键特征区域,如眼部、嘴部等表情变化显著的部位,使模型在处理表情信息时更具针对性,进而大幅提高人脸表情识别的精度与可靠性。

4 实验结果分析

4-1数据集介绍

本次实验使用的数据集为FER2013数据集进行训练和测试。FER2013数据集是公开数据集中最常用的人脸表情数据集之一,其中共有35888张人脸面部图片,按照图像可划分为了7种表情,图像均为48*48的灰度图像,如图图4 - 1所示。

4-2 实验预处理

针对数据集的预处理流程如下:首先,把原始尺寸为 48×48 的图片分别从左上角、右上角、左下角、右下角以及中心位置随机裁剪为 44×44 的图片,与此同时,对裁剪后的图片实施随机水平翻转操作,处理后的图像将被输入模型用于训练。对于验证集,也执行相同的裁剪操作,但不进行随机处理,而是对每个位置都进行裁剪,如此可获得 10 张图片,最终的结果取这 10 张图片的平均值,通过这种方式有效提升模型识别的准确率。

4-3实验及结果分析

CBAM-VGG19模型在FER2013数据集上的准确率如表4-1所示,混淆矩阵如图4-2所示。

模型在FER2013数据集中识别率最高的是Happy,在Fear表情识别方面稍显劣势。但是Fear,Sad,Disgust,Angry四类表情本身便具有一定的相似性,四类表情之间的出现并不具有独立性,在现实生活中,人们也会对这四类表情的分类出现模糊,因此模型对这四类表情识别的准确率较低属于可接受情况。

本模型与其他模型进行了比较,结果如表4 - 2所示,相较于江徐等人提出的AMF-VGG16模型[6],吴陈等人提出的S-ResNet模型[7]均有所提高。

从对比结果中可以看出,CBAM-VGG19 模型在整体上优于其他几种模型,在 FER2013 数据集上提高了准确率,达到73.5%。改进后的 VGG19 融合 CBAM 块具有显著优点,其通道注意力机制可精准聚焦于关键特征通道,筛选出对情绪分类最具价值的信息;空间注意力机制则能突出图像中重要的空间区域,二者协同让模型能更精准地捕捉表情细节,有效提升了模型对情感的判别能力与泛化性能。

5结论

本文研究人脸面部表情识别,针对VGG19模型进行改进,修改网络结构,降低过拟合,添加注意力机制,融合CBAM模块,使模型抓住重要信息,提高了图片面部信息不全或有遮挡的情况下的识别准确率,在FER2013数据集上得到了很好的验证。本文提出的模型也存在一些不足,如参数的优化缺少解释性,模型性能可提升空间较大,在个别表情识别方面准确率不足等,这些问题都有待进一步研究改进。

参考文献

贺加贝,周菊香,甘健侯,等.基于多任务学习的课堂表情分类模型[J].应用科学学报,2024,42(06):947-961.

张领, 朱原雨润, 王晶仪. 基于人脸表情识别的自闭症儿童辅助诊断[J]. 数字技术与应用, 2022, 40 (07): 124-126.

K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," abs/1409.1556, 2014. [Online]. Available: <https://arxiv.org/abs/1409.1556>

李会, 郭家文, 黄世醒, 郑丁科, 安星宇, 郑健林, 杨丹彤. 基于改进YOLOv7的甘蔗幼苗检测方法试验研究[J]. 农机化研究, 1-9.

何睿清, 姜李哲, 魏方伟, 崔媛媛, 刘烨楠, 吴思凡, 杨凡, 童莹. 基于改进YOLOv10的多光谱光学元件疵病检测[J]. 光通信研究, 1-8.

江先辉, 徐名海, 王子轩. 基于AMF-VGG16的面部表情识别[J]. 智能计算机与应用, 2024, 14 (07): 1-9.

吴宇豪,陈晓辉.基于改进的ResNet的人脸表情识别系统[J].信息通信,2020(7):37-39