基于长视频下微表情识别的研究与分析

摘要：在当今数字化时代，视频信息海量涌现，长视频蕴含丰富行为与情感线索。微表情作为下意识、短暂面部动作，能透露被隐藏真实情绪，长视频微表情识别对心理学研究、安防监控、人机交互意义深远。文章聚焦长视频微表情识别领域，全面阐述其研究背景、相关理论基础、技术方法、应用现状以及面临的挑战与未来发展方向。详细介绍微表情独特性质及长视频情境下识别的难点，梳理从预处理、特征提取到分类识别各环节技术手段，分析现有数据集与评估指标，展示该技术在多领域应用成果，旨在为该领域深入研究提供系统参考。

关键词：长视频；微表情；特征；识别

中图分类号： N34 文献标识码： A 文章编号：

1引言

在当今信息爆炸时代，视频数据呈海量增长态势，长视频作为承载丰富信息的媒介，涵盖电影、监控录像、网络直播等多样形式，其中蕴含大量人物行为与情感线索。微表情，作为一种下意识、短暂且细微的面部肌肉动作，能够穿透人们刻意伪装，泄露内心真实情绪状态，如紧张、恐惧、喜悦等隐藏情感。长视频微表情识别技术致力于在长时间、复杂场景视频序列中精准捕捉与解读这些转瞬即逝的表情信号，在心理学、安防监控、人机交互、医疗健康等诸多领域具备广阔应用前景，近年来成为学界与业界热门研究课题。[1]

2 微表情基础理论

2.1微表情定义与特性

微表情通常持续时间极短，介于 1/25 ～ 1/5 秒之间，相较于常规表情，其持续时长仅为后者的 1/10 ～ 1/5。动作幅度微小，往往局限于面部局部肌肉轻微收缩、舒展，像嘴角不易察觉的抽动、眼睑瞬间绷紧等。这类表情产生源于大脑边缘系统对情绪刺激的原始反应，不受意识控制，在个体试图压抑或掩饰真实感受时自发出现，具有无意识性、瞬时性与隐蔽性特点，是洞察内心情绪真实状态的“窗口”。

2.2微表情产生机制

从神经科学角度，当个体遭遇外界刺激，大脑丘脑率先接收信息并快速传至杏仁核，触发情绪唤起，边缘系统驱动面部肌肉本能反应形成微表情，此过程先于大脑皮层理性认知与表情控制机制介入，所以是情绪的“本能泄露”。在心理学层面，微表情与情绪的自我调节、社会交往中的印象管理紧密关联，人们常在社交中遵循展示规则调整表情，可微表情会在情绪强烈时冲破“伪装防线”。

3 长视频微表情识别难点

微表情持续短、幅度微小，易淹没在头部正常运动、光照变化大及视频噪声里。长视频中，面部姿态随时间多样，场景切换、遮挡频繁，增加识别复杂性，与实验室短片段识别有本质区别。[2]具体表现在以下几个方面：

3.1时间维度挑战

长视频时长跨度大，微表情随机镶嵌其中，难以精准定位起始与终止时刻，且不同时段表情强度、形态变化复杂，增加时间序列分析难度。例如监控视频数小时记录里，目标人物微表情可能仅闪现数次，捕捉时机易错过，不像实验室设定短片段能聚焦特定时段分析。

3.2面部姿态与遮挡问题

长视频拍摄视角多元、人物动作频繁，导致面部频繁转动、俯仰、侧偏，产生姿态变化，改变面部五官相对位置与形状，影响微表情特征提取稳定性；且日常场景中头发、眼镜、手等遮挡物不时出现，部分掩盖面部关键区域，使表情细节丢失，识别精准度大打折扣。

3.3光照与场景复杂性

户外监控受自然光照昼夜交替、阴晴变化影响，室内场景灯光布局、强度不均，造成面部光影斑驳、对比度失衡，干扰微表情纹理、轮廓特征捕捉；长视频还常伴随场景切换、背景动态变化，加剧识别算法区分目标表情与环境干扰难度。

4 长视频微表情识别技术流程

4.1 预处理阶段

4.1.1 长视频微表情的分割

此阶段是整个识别流程的基石，目的是优化输入长视频，为后续精准分析做准备。首先将长视频分解为连续的单帧图像，对每帧图像进行人脸位置标定。接着对人脸上的眼睛和鼻子等关键部位进行位置标定，利用这些关键部位的位置对图像进行裁剪，只保留脸部区域。然后选取一张无表情的图像作为模板，逐帧与模板比较灰度直方图的差异，根据差异阈值来判断是否为微表情图像，剔除不符合的帧。最后对剩余的微表情图像，通过对图像纹理特征的描述和比较，可采用二维Haar小波变换方法提取纹理特征，计算相邻帧图像特征向量的欧氏距离，寻找帧间差距的局部最大值点所对应的帧图像，将其作为切段点，实现微表情的分割。

4.1.2 人脸检测与定位

人脸检测与定位采用基于深度学习的人脸检测模型，如Viola P， Jones M 提出的Haar 特征分类器在人脸检测方面的经典应用。[3] Zhang K， Zhang L， Li Z， et al对 MTCNN模型在人脸检测与对齐方面的研究，在每帧图像里框定人脸区域，排除背景、杂物干扰，为后续专注人脸分析奠基。[4]利用 Viola - Jones 算法、基于深度学习的 YOLO（You Only Look Once）、[5]RetinaFace 等目标检测方法，在长视频帧序列精准框定人脸区域，快速筛选出含面部画面，为后续精细分析锁定目标，即便人脸尺度小、姿态多样也力求高召回率定位。

4.1.3 归一化处理

把检测到的人脸图像统一尺寸（常见 128×128 像素或 256×256 像素）、调整亮度、对比度至标准范围，消除因拍摄条件差异造成的影响，让各帧人脸图像具可比性。对检测到人脸实施几何归一化，基于双眼、鼻尖等关键点坐标校准角度、缩放尺度，将人脸统一规范尺寸与角度；再经灰度归一化（直方图均衡化、伽马校正）提升面部图像整体对比度、亮度均匀性，削弱光照差异不良影响，凸显微表情细微纹理与肌肉运动痕迹。

4.2 特征提取

特征提取在微表情识别中极其重要。通过特征提取能够聚焦于关键的表情特征，如面部肌肉的微小变化，包括嘴角的微微抽动、眉毛的瞬间上扬等，从而在如此短暂且细微的表情呈现中捕捉到有价值的信息用于识别。微表情特征提取有助于降低数据的复杂度。微表情的原始数据包含大量冗余信息，像面部的光影变化等可能干扰识别。特征提取可以筛选出真正与表情相关的核心特征，比如眼部肌肉的收缩模式等，减少数据量，提高识别效率和准确率。

不同个体的微表情可能存在差异，同一个微表情在不同人脸上会有不同表现。[6]特征提取能够找到具有代表性的、通用的特征，为后续建立精准的微表情识别模型提供基础，让模型可以适应不同人群的微表情识别。微表情特征提取有以下几种方法：

几何特征提取：关注人脸五官形态、位置变化，通过标记眼角、嘴角、鼻翼等关键点，计算关键点间距、角度变化，精准捕捉，如：嘴角上扬、眉头紧锁等微动作幅度与方向，构建几何特征向量。跟踪面部关键地标点（眼角、嘴角、眉心等）随时间轨迹，计算点间距、角度变化，依面部动作编码系统（FACS）规则，将点运动映射为肌肉动作单元（AU）激活状态，量化微表情动作幅度、方向，直观反映表情动态变化，如 AU1（内眉上扬）关联惊讶情绪，可从眉部关键点位移判断激活与否。

外观特征提取：局部二值模式（LBP）聚焦像素邻域关系，编码局部纹理特征，对微表情肌肉收缩舒张引发纹理改变敏感；方向梯度直方图（HOG）统计梯度方向分布，刻画面部轮廓、纹路走向，捕捉表情变形轮廓特征；深度学习框架下，卷积神经网络（CNN）凭借多层卷积、池化自动学习面部抽象特征，深层特征图蕴含丰富表情语义信息，像 VGGNet、ResNet 迁移学习微调后用于微表情特征提取效果显著。[7]

光流特征提取：基于光流法计算相邻帧像素运动矢量场，追踪人脸细微位移，呈现肌肉动态变化趋势，对快速闪现的微表情变化有高敏感度，辅助捕捉瞬态特征。光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。在微表情识别里，它可以用来捕捉面部肌肉的细微运动。这种方法通过计算连续视频帧之间像素的运动情况，来提取面部肌肉运动的特征[7]。具体而言，假设一个像素点在t时刻的位置是（x，y），在t + Δt时刻运动到了（x + Δx，y + Δy），通过算法来求解这个像素的位移（Δx和Δy）对应的速度，这速度就是光流。例如，当人脸上的一块肌肉产生了微表情相关的细微动作，相应区域的光流就会发生变化，通过提取这些变化的光流特征，能为后续的微表情分类识别提供数据基础，帮助识别出如惊讶、厌恶等微表情。

4.3 分类识别阶段

4.3.1 传统机器学习分类

支持向量机（SVM）凭借核技巧将低维非线性可分微表情特征映射高维线性可分空间，依最大间隔划分表情类别，对小样本、非线性微表情数据鲁棒；决策树系列（C4.5、随机森林）基于特征属性构建树形结构分类器，依据特征取值分支决策，直观易懂且训练高效，通过集成学习提升泛化与抗噪能力，应对长视频复杂干扰下微表情分类。

4.3.2 深度学习分类模型

长短期记忆网络（LSTM）因特殊门控结构能记忆长序列依赖，与 CNN 结合（LSTM - CNN 架构），CNN 提取单帧特征，LSTM 关联多帧时序特征建模微表情动态演变，端到端训练适配长视频连续分析；3D 卷积神经网络（3D - CNN）将视频视作三维（帧、宽、高）数据，直接学习时空联合特征，捕捉微表情跨帧时空动态模式，强化识别精度与效率。[8]

5.长视频微表情识别数据集与评估指标

5.1 常用数据集

CASME 系列：如 CASME II，含 26 个受试者 247 个微表情样本，标注丰富 AU 信息、情绪类别（厌恶、悲伤等），视频帧率 60fps，高清捕捉面部细节，场景涵盖实验室诱发情绪情境，是微表情基础研究关键数据支撑，助于算法性能测试对比。

SMIC 数据集：采集自自然与实验室混合场景，分高、中、低光照子集，含 164 个微表情序列，着重考察光照复杂环境微表情识别，推动算法光照鲁棒性提升，多样录制设备、拍摄角度贴近现实长视频状况。

5.2 评估指标

分类准确率：正确分类微表情样本占总样本比例，直观反映模型整体识别对错能力，越高表明模型精准判别各类别微表情水平越强，是首要性能衡量指标。

召回率与精确率：召回率指正确识别某类微表情样本占实际该类样本数比例，衡量对正样本覆盖程度；精确率是正确识别为某类微表情样本占预测为该类样本数比例，权衡预测精准性，二者结合 F1 值综合评估模型在不同类别微表情识别表现，平衡漏报与误报情况。

时间相关指标：平均延迟时间考量从微表情起始至模型识别输出耗时，越短代表识别及时性越好，契合长视频实时监测需求，确保关键情绪信号快速捕捉反馈。

6.长视频微表情识别应用领域

6.1 安防监控领域

在机场、银行、街头等监控场景，长视频微表情识别辅助甄别可疑人员。如机场安检口，旅客面对询问神色紧张，微表情泄露不安，系统实时捕捉识别，结合行为轨迹，精准锁定潜在安全风险，预防违法犯罪，相较传统监控单纯依靠行为分析，增添情绪洞察维度，预警更敏锐。

6.2 人机交互方面

智能客服、智能家居交互场景应用广泛。智能客服对话中，依据用户微表情变化（困惑皱眉、不满撇嘴）实时调整回答策略、切换人工服务；智能家居设备依主人进门微表情判读情绪，温馨提示或调节环境氛围（灯光亮度、音乐风格），提升交互体验人性化、智能化。

6.3 医疗健康应用

心理诊疗时，分析患者长视频咨询记录微表情，辅助抑郁症、焦虑症等精神疾病诊断，洞察情绪起伏、抵触隐瞒情绪，跟踪康复进程中表情改善状况；康复治疗里，借微表情反馈评估理疗、言语治疗效果，优化方案，增强医疗干预针对性。

7.长视频微表情识别面临挑战与未来展望

7.1 现存挑战

数据标注瓶颈：微表情标注需专业知识、精细耗时操作，长视频标注工作量呈指数级增长，导致高质量标注数据稀缺，限制深度学习模型充分训练，尤其多模态、复杂场景标注规范与一致性难保障。

模型计算成本：深度学习模型架构复杂、参数繁多，长视频逐帧处理对算力要求严苛，训练与推理耗时久、能耗高，边缘设备（安防摄像头、移动终端）部署受限，难以实现实时高效分析。

跨场景适应性差：现有算法多在特定数据集、场景优化，换至真实复杂长视频（极端光照、剧烈姿态），识别精度骤降，模型泛化能力待提升，难以无缝对接多行业多元应用场景需求。

7.2 未来趋势

长视频微表情识别在数据集建设革新方面将会构建大规模、多模态（融合语音情感、肢体动作）、跨场景长视频微表情数据集，利用众包标注、半自动化标注工具提高效率，规范标注体系，为算法突破筑牢数据根基。在轻量级模型研发方面探索如 MobileNet、ShuffleNet 等轻量化神经网络架构优化，结合模型压缩（剪枝、量化）、知识蒸馏技术，削减计算量同时维持识别精度，适配边缘计算、实时处理需求。在多模态融合与强化学习方面在未来将整合语音语调、肢体姿态情感线索与微表情互补，借助强化学习依应用反馈动态优化识别策略，增强系统自适应、智能决策能力，拓宽长视频微表情识别应用边界，解锁更多实用价值。

8.结束语

长视频微表情识别面临标注耗时费力，标注数据匮乏、模型训练计算成本高、跨场景普适性差等难题。未来需构建大规模长视频数据集、优化轻量级高效模型、融合多模态（语音、肢体动作）信息，突破现有局限，解锁更多应用潜能，实现更精准的智能情感洞察。长视频微表情识别作为融合计算机视觉、心理学、机器学习多学科前沿领域，历经多年发展在理论、技术、应用取得显著进展，虽面临系列挑战，但随着数据资源扩充、算法创新迭代、硬件算力升级，有望突破局限，深度嵌入社会各层面，变革安防、交互、医疗运作模式，实现精准情感感知与智能决策赋能。

参考文献：

[1]熊昊晗，仲鹏飞，钱易，王诗媛.基于深度学习的人脸微表情识别及分析研究[J].电脑编程技巧与维护，2024（10）：127-129.

[2]战子为，孙兆才，李翔，吴镇东.基于递增注意力的微表情识别方法[J].深圳大学学报（理工版），2024（06）：118-126.

[3] Viola P， Jones M. Robust real-time face detection[J]. International journal of computer vision， 2004， 57（2）： 137-154.

[4] Zhang K， Zhang L， Li Z， et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters， 2016， 23（10）： 1499-1503.

[5] 张山山，胡志慧.基于YOLOv5的微表情识别技术研究[J].曲阜师范大学学报（自然科学版），2024（03）：102-108.

[6]任宇，陈新泉，王岱嵘，陈新怡.改进残差网络与峰值帧的微表情识别[J].重庆工商大学学报（自然科学版），2024（01）P：25-33.

[7]曾岚蔚，许青林.基于深度卷积注意胶囊网络的微表情识别方法[J].计算机工程与设计，2022（09）：239-245

[8]叶天祺，曾张帆.基于持续时空注意力网络的人脸微表情识别[J].南昌大学学报（理科版），2023（01）P：98-105.

基金项目：安徽省高校自然科学研究重点项目“基于长视频下的人脸微表情分割与识别的研究”（2022AH052921）和安省高校自然科学研究重大项目“基于教学场景下的学生行为分析研究”（2022AH040354）

作者简介：马玲玲（1976—），女，安徽淮北人，讲师，计算机软件与理论专业2011级硕士研究生，研究方向：图形图像处理。

基于长视频下微表情识别的研究与分析

马玲玲

Related Articles

会计诚信建设的现实困境、成因溯源与治理路径研究

习近平关于全过程人民民主重要论述研究

防伤训练视域下理解式游戏教学法融入体能训练的探索与实践

安顺文庙文旅融合发展策略初探

冷冻胚胎法律属性与权利问题分析