融合GAM的FE-ResNet模型及其在儿童表情识别中的应用

摘要：本文提出了一种改进的FE-ResNet模型，通过将GAM注意力机制引入ResNet34网络，显著提升了儿童人脸表情识别的性能。实验结果表明，改进后的模型在损失值、精确率、召回率和F1分数等关键指标上均优于原始ResNet34，验证了GAM注意力机制的有效性。

关键字：ResNet; GAM; 注意力机制; 儿童表情识别

1引言

人脸表情识别方法主要有传统的人工特征[1]提取方法和深度学习方法。前者通常是研究人员从人脸图像中提取手工设计的特征，如局部二进制模式特征、尺度不变特征变换特征等，捕捉人脸表情的纹理、形状等信息；后者利用深度学习技术中的神经网络可以自动提取图像特征，并对特征进行学习训练实现分类识别。深度学习技术中的卷积神经网络通过多层卷积层和池化层自动学习人脸表情图像的特征表示，包括各种复杂模式，提高表情识别准确率[2]。儿童在成长过程中，情感表达是其心理发展的重要外在表现[3]。通过准确识别儿童的人脸表情，可以更好地理解儿童在不同情境下的情绪反应，从而深入探究儿童心理发展的规律。近年来，许多深度学习方法被应用到人脸表情识别任务中。CNN通过多层卷积层和池化层自动学习人脸表情图像的特征表示。RNN及其变体，如长短期记忆网络LSTM[4]、门控循环单元GRU[5]处理连续的视频序列表情识别。

2研究基础

本文旨在通过引进注意力机制对ResNet进行改进，以提高对人脸表情识别的精确度。结合人脸表情识别的需求，选择网络深度与识别精度较为平衡的ResNet34作为基础模型。ResNet34网络包含4个残差阶段（层数为[3，4，6，3]），用于特征提取，使用BasicBlock作为基础块。我们选择在基础块BasicBlock中对模型进行更改，在BasicBlock中引入注意力机制GAM，提高对图像的特征提取能力。

2.1 ResNet34网络

残差网络（ResNet）[6]在2015年由何恺明等提出，其核心创新在于引入残差块（Residual Block），通过跳跃连接（Shortcut Connection）实现跨层特征融合。该设计有效缓解了深度神经网络中的梯度消失与模型退化问题，使超深层网络训练成为可能。在人脸表情识别任务中，ResNet34凭借其深度与残差结构的平衡性，在对比实验中展现出优于其他网络的性能。

2.2 GAM注意力机制

GAM（Global Attention Module）模块[7]是一种结合了通道注意力和空间注意力的混合注意力机制，其核心思想是通过动态调整特征图中不同通道和空间位置的权重，使模型能够更聚焦于与表情相关的关键区域。该模块主要由通道注意力子模块和空间注意力子模块组成，这两个子模块的协同作用使得GAM能够同时捕捉通道间的依赖关系和空间上的关键区域，从而更全面地提取表情特征。

3改进的FE-ResNet模型

3.1 ResNet的局限性

ResNet通过残差学习范式解决了深度网络的梯度衰减问题，但在细粒度、高类间相似性的人脸表情识别任务中，其架构设计存在以下局限性。

3.1.1 特征响应分布离散化

ResNet的残差块采用均质化卷积操作，对所有通道与空间位置进行无差别加权，导致判别性特征与背景噪声混杂。尤其在FER任务中，表情语义高度依赖局部解剖学区域（如眼轮匝肌、口轮匝肌的微运动），而全局卷积易受无关特征（如发型、饰品）干扰。

3.1.2 层级隔离现象

ResNet的层级结构（stage1-stage4）通过卷积逐步下采样，形成单向特征抽象流。高层语义特征（表情类别）与低层细节特征（肌肉纹理）缺乏双向交互机制，导致浅层信息在深层网络中逐渐湮灭。

3.1.3 动态环境适应性不足

ResNet的静态卷积核难以自适应调整特征提取策略。在极端光照或局部遮挡（如口罩）条件下，模型性能显著下降。不同人种的肤色、面部结构差异导致特征分布偏移，传统残差块的固定参数难以实现域不变性学习。

3.2 FE-ResNet的改进思想

3.2.1 核心改进思想

FE-ResNet秉持“动态特征增强”这一核心设计理念，巧妙融合双维度注意力引导与残差学习机制，对传统残差块的函数映射过程进行了深度重构与优化，旨在显著提升模型在人脸表情识别任务中的性能与适应性。

在特征感知层面，FE-ResNet实现了“局部-全局特征”的协同感知。在通道维度上，模型通过特定的注意力机制筛选出与表情高度相关的敏感特征，同时有效抑制那些对表情识别贡献较小甚至产生干扰的冗余背景噪声。这种通道维度的注意力聚焦，使得模型能够更精准地捕捉到表情在通道特征空间中的关键信息。而在空间维度上，FE-ResNet 着重强化局部关键区域的响应，并通过巧妙的设计建立跨区域的语义关联。借助大核空间注意力机制，模型能够跨越不同区域，将分散的表情信息进行整合与关联，从而更全面地理解表情的语义内涵。

动态特征校准是FE-ResNet的另一大核心优势。模型具备根据输入图像内容自适应调整特征权重的能力，这意味着无论输入图像的光照条件如何变化，或者是否存在部分遮挡，模型都能灵活地调整特征的重要性，确保关键表情特征得到有效利用，从而显著提升模型对光照变化和遮挡等干扰因素的鲁棒性。此外，通过端到端的深度学习方式，FE-ResNet能够实现跨域特征对齐，有效缓解因个体差异导致的数据分布偏移问题，使得模型在不同个体、不同场景下都能保持稳定的性能表现。

3.2.2 GAM的核心优势

在众多主流注意力机制中，如SE、CBAM等，GAM凭借其独特的通道-空间联合建模能力，展现出更适配人脸表情识别需求的显著优势。表1详细对比了不同注意力机制在通道注意力设计、空间注意力设计以及与人脸表情识别适配性方面的差异：

在通道注意力设计方面，GAM作为SE模块的一种变体，通过全局平均池化操作捕获通道间的统计信息，以此为基础抑制冗余通道噪声。其创新之处在于引入了可学习的通道压缩比，这一设计使得模型能够根据实际任务需求和数据特点，在计算成本与特征选择性之间找到最佳平衡点，既避免了过高的计算开销，又确保了特征的有效性和代表性。

3.2.3 FE-ResNet结构

为将上述创新理念有效融入模型架构，本文选择在经典的残差块BasicBlock中进行关键改进。通过在BasicBlock中引入注意力机制GAM，我们构建了全新的改进型BasicBlock结构，其具体架构如图1所示。在改进的BasicBlock中，输入特征首先经过传统的卷积层进行初步的特征提取。随后，特征图被送入GAM模块，在该模块中，通道注意力分支和空间注意力分支并行工作。通道注意力分支对特征图在通道维度上进行信息整合与权重分配，突出表情敏感通道；空间注意力分支则在空间维度上强化关键区域响应，捕捉表情的局部和全局特征。经过GAM模块处理后的特征图，与原始输入特征进行残差连接，这种残差学习机制能够有效缓解深层网络训练过程中的梯度消失问题，同时促进特征的融合与优化。最终，本文改进的BasicBlock输出经过动态特征增强和优化的特征图，为后续的网络层提供更丰富、更具判别力的表情特征表示。通过这种结构改进，FE-ResNet 能够在保持残差网络优势的基础上，充分发挥GAM模块的注意力增强能力，显著提升模型在人脸表情识别任务中的性能。

4实验

4.1 数据集

本文采用Fer2013标准数据集进行实验对比，该数据集一共包含35887张灰度面部图像，分辨率为48*48，包含7种基本表情类别（生气，厌恶，恐惧，快乐，悲伤，惊讶，中性），本实验按照6：2：2我们将其分为训练集，验证集以及测试集。

4.2 实验环境

本文使用Pytorch框架进行网络模型的训练，训练前对网络模型的主要参数进行配置，设置batch size为32，设置epoch为100，优化器使用Adam，设置初始学习率为0.0001。实验所用硬件配置如表1所示。

4.3 评价指标

本文实验采用损失值（Loss，L）、精确度（Precision，P）、召回率（Recall，R）和F1分数（F1-Score，F）等作为评价指标。

4.4 实验结果与分析

为了验证模型检测性能，探究不同改进方法对网络整体性能的影响，在ResNet34网络的基础上对数据集进行消融实验，实验结果如表2所示。

从表2实验结果来看，改进网络模型有效地提升了ResNet34模型的性能。尤其是添加了GAM注意力机制后，增加效果最明显，结果最优。在四项评价指标都具有良好的效果，这是由于通过动态调整特征图中不同通道和空间位置的权重，使模型能够更聚焦于与表情相关的关键区域，使得模型学习能力加强，导致训练结果较好。同时也表明改进后的模型显著提高了识别准确性和对实际正样本的识别能力。

5结语

本文通过将GAM注意力机制引入ResNet34中，提出了一种改进FE-ResNet模型，在损失值、精确率、召回率、F1分数上均有提升，实验结果也证明了该模型的改进是有效的。未来研究方向包括探索不同注意力机制的组合及其在不同数据集和任务中的适用性，以进一步提升模型的泛化能力和识别精度。本研究为人脸表情识别领域提供了一种更高效的解决方案，具有潜在的实际应用价值。

参考文献

[1]Matti Pietikäinen， Hadid A ， Zhao G ，et al.Local Binary Patterns for Still Images[J].Springer London， 2011.DOI：10.1007/978-0-85729-748-8_2.

[2]何俊，刘跃，李倡洪，等.基于改进的深度残差网络的表情识别研究[J].计算机应用究，2020，37（05）：1578-1581.DOI：10.19734/j.issn.1001-3695.2018.10.0846.

[3]Ekman，Paul.Facial expression and emotion.[J].American Psychologist， 1993， 48（4）：384-392.DOI：10.1037/0003-066X.48.4.384.

[4]Hochreiter S ， Schmidhuber J .Long Short-Term Memory[J].Neural Computation， 1997， 9（8）：1735-1780.DOI：10.1162/neco.1997.9.8.1735.

[5]Chung J ， Gulcehre C ， Cho K H ，et al.Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J].Eprint Arxiv， 2014.DOI：10.48550/arXiv.1412.3555.

[6]He K ， Zhang X ， Ren S ，et al.Deep Residual Learning for Image Recognition[J].IEEE， 2016.DOI：10.1109/CVPR.2016.90.

[7]Liu Y ， Shao Z ， Hoffmann N .Global Attention Mechanism： Retain Information to Enhance Channel-Spatial Interactions[J]. 2021.DOI：10.48550/arXiv.2112.05561.

基金项目：2024年重庆第二师范学院大学生科研项目“基于大卷积核和多尺度注意力的儿童表情识别研究”（项目编号：KY20240047）。