基于长视频下微表情识别的研究与分析
马玲玲
安徽绿海商务职业学院信息工程学院 安徽合肥 230000
摘要:在当今数字化时代,视频信息海量涌现,长视频蕴含丰富行为与情感线索。微表情作为下意识、短暂面部动作,能透露被隐藏真实情绪,长视频微表情识别对心理学研究、安防监控、人机交互意义深远。文章聚焦长视频微表情识别领域,全面阐述其研究背景、相关理论基础、技术方法、应用现状以及面临的挑战与未来发展方向。详细介绍微表情独特性质及长视频情境下识别的难点,梳理从预处理、特征提取到分类识别各环节技术手段,分析现有数据集与评估指标,展示该技术在多领域应用成果,旨在为该领域深入研究提供系统参考。
关键词:长视频;微表情;特征;识别
中图分类号: N34 文献标识码: A 文章编号:
1引言
在当今信息爆炸时代,视频数据呈海量增长态势,长视频作为承载丰富信息的媒介,涵盖电影、监控录像、网络直播等多样形式,其中蕴含大量人物行为与情感线索。微表情,作为一种下意识、短暂且细微的面部肌肉动作,能够穿透人们刻意伪装,泄露内心真实情绪状态,如紧张、恐惧、喜悦等隐藏情感。长视频微表情识别技术致力于在长时间、复杂场景视频序列中精准捕捉与解读这些转瞬即逝的表情信号,在心理学、安防监控、人机交互、医疗健康等诸多领域具备广阔应用前景,近年来成为学界与业界热门研究课题。[1]
2 微表情基础理论
2.1微表情定义与特性
微表情通常持续时间极短,介于 1/25 ~ 1/5 秒之间,相较于常规表情,其持续时长仅为后者的 1/10 ~ 1/5。动作幅度微小,往往局限于面部局部肌肉轻微收缩、舒展,像嘴角不易察觉的抽动、眼睑瞬间绷紧等。这类表情产生源于大脑边缘系统对情绪刺激的原始反应,不受意识控制,在个体试图压抑或掩饰真实感受时自发出现,具有无意识性、瞬时性与隐蔽性特点,是洞察内心情绪真实状态的“窗口”。
2.2微表情产生机制
从神经科学角度,当个体遭遇外界刺激,大脑丘脑率先接收信息并快速传至杏仁核,触发情绪唤起,边缘系统驱动面部肌肉本能反应形成微表情,此过程先于大脑皮层理性认知与表情控制机制介入,所以是情绪的“本能泄露”。在心理学层面,微表情与情绪的自我调节、社会交往中的印象管理紧密关联,人们常在社交中遵循展示规则调整表情,可微表情会在情绪强烈时冲破“伪装防线”。
3 长视频微表情识别难点
微表情持续短、幅度微小,易淹没在头部正常运动、光照变化大及视频噪声里。长视频中,面部姿态随时间多样,场景切换、遮挡频繁,增加识别复杂性,与实验室短片段识别有本质区别。[2]具体表现在以下几个方面:
3.1时间维度挑战
长视频时长跨度大,微表情随机镶嵌其中,难以精准定位起始与终止时刻,且不同时段表情强度、形态变化复杂,增加时间序列分析难度。例如监控视频数小时记录里,目标人物微表情可能仅闪现数次,捕捉时机易错过,不像实验室设定短片段能聚焦特定时段分析。
3.2面部姿态与遮挡问题
长视频拍摄视角多元、人物动作频繁,导致面部频繁转动、俯仰、侧偏,产生姿态变化,改变面部五官相对位置与形状,影响微表情特征提取稳定性;且日常场景中头发、眼镜、手等遮挡物不时出现,部分掩盖面部关键区域,使表情细节丢失,识别精准度大打折扣。
3.3光照与场景复杂性
户外监控受自然光照昼夜交替、阴晴变化影响,室内场景灯光布局、强度不均,造成面部光影斑驳、对比度失衡,干扰微表情纹理、轮廓特征捕捉;长视频还常伴随场景切换、背景动态变化,加剧识别算法区分目标表情与环境干扰难度。
4 长视频微表情识别技术流程
4.1 预处理阶段
4.1.1 长视频微表情的分割
此阶段是整个识别流程的基石,目的是优化输入长视频,为后续精准分析做准备。首先将长视频分解为连续的单帧图像,对每帧图像进行人脸位置标定。接着对人脸上的眼睛和鼻子等关键部位进行位置标定,利用这些关键部位的位置对图像进行裁剪,只保留脸部区域。然后选取一张无表情的图像作为模板,逐帧与模板比较灰度直方图的差异,根据差异阈值来判断是否为微表情图像,剔除不符合的帧。最后对剩余的微表情图像,通过对图像纹理特征的描述和比较,可采用二维Haar小波变换方法提取纹理特征,计算相邻帧图像特征向量的欧氏距离,寻找帧间差距的局部最大值点所对应的帧图像,将其作为切段点,实现微表情的分割。
4.1.2 人脸检测与定位
人脸检测与定位采用基于深度学习的人脸检测模型,如Viola P, Jones M 提出的Haar 特征分类器在人脸检测方面的经典应用。[3] Zhang K, Zhang L, Li Z, et al对 MTCNN模型在人脸检测与对齐方面的研究,在每帧图像里框定人脸区域,排除背景、杂物干扰,为后续专注人脸分析奠基。[4]利用 Viola - Jones 算法、基于深度学习的 YOLO(You Only Look Once)、[5]RetinaFace 等目标检测方法,在长视频帧序列精准框定人脸区域,快速筛选出含面部画面,为后续精细分析锁定目标,即便人脸尺度小、姿态多样也力求高召回率定位。
4.1.3 归一化处理
把检测到的人脸图像统一尺寸(常见 128×128 像素或 256×256 像素)、调整亮度、对比度至标准范围,消除因拍摄条件差异造成的影响,让各帧人脸图像具可比性。对检测到人脸实施几何归一化,基于双眼、鼻尖等关键点坐标校准角度、缩放尺度,将人脸统一规范尺寸与角度;再经灰度归一化(直方图均衡化、伽马校正)提升面部图像整体对比度、亮度均匀性,削弱光照差异不良影响,凸显微表情细微纹理与肌肉运动痕迹。
4.2 特征提取
特征提取在微表情识别中极其重要。通过特征提取能够聚焦于关键的表情特征,如面部肌肉的微小变化,包括嘴角的微微抽动、眉毛的瞬间上扬等,从而在如此短暂且细微的表情呈现中捕捉到有价值的信息用于识别。微表情特征提取有助于降低数据的复杂度。微表情的原始数据包含大量冗余信息,像面部的光影变化等可能干扰识别。特征提取可以筛选出真正与表情相关的核心特征,比如眼部肌肉的收缩模式等,减少数据量,提高识别效率和准确率。
不同个体的微表情可能存在差异,同一个微表情在不同人脸上会有不同表现。[6]特征提取能够找到具有代表性的、通用的特征,为后续建立精准的微表情识别模型提供基础,让模型可以适应不同人群的微表情识别。微表情特征提取有以下几种方法:
几何特征提取:关注人脸五官形态、位置变化,通过标记眼角、嘴角、鼻翼等关键点,计算关键点间距、角度变化,精准捕捉,如:嘴角上扬、眉头紧锁等微动作幅度与方向,构建几何特征向量。跟踪面部关键地标点(眼角、嘴角、眉心等)随时间轨迹,计算点间距、角度变化,依面部动作编码系统(FACS)规则,将点运动映射为肌肉动作单元(AU)激活状态,量化微表情动作幅度、方向,直观反映表情动态变化,如 AU1(内眉上扬)关联惊讶情绪,可从眉部关键点位移判断激活与否。
外观特征提取:局部二值模式(LBP)聚焦像素邻域关系,编码局部纹理特征,对微表情肌肉收缩舒张引发纹理改变敏感;方向梯度直方图(HOG)统计梯度方向分布,刻画面部轮廓、纹路走向,捕捉表情变形轮廓特征;深度学习框架下,卷积神经网络(CNN)凭借多层卷积、池化自动学习面部抽象特征,深层特征图蕴含丰富表情语义信息,像 VGGNet、ResNet 迁移学习微调后用于微表情特征提取效果显著。[7]
光流特征提取:基于光流法计算相邻帧像素运动矢量场,追踪人脸细微位移,呈现肌肉动态变化趋势,对快速闪现的微表情变化有高敏感度,辅助捕捉瞬态特征。光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。在微表情识别里,它可以用来捕捉面部肌肉的细微运动。这种方法通过计算连续视频帧之间像素的运动情况,来提取面部肌肉运动的特征[7]。具体而言,假设一个像素点在t时刻的位置是(x,y),在t + Δt时刻运动到了(x + Δx,y + Δy),通过算法来求解这个像素的位移(Δx和Δy)对应的速度,这速度就是光流。例如,当人脸上的一块肌肉产生了微表情相关的细微动作,相应区域的光流就会发生变化,通过提取这些变化的光流特征,能为后续的微表情分类识别提供数据基础,帮助识别出如惊讶、厌恶等微表情。
4.3 分类识别阶段
4.3.1 传统机器学习分类
支持向量机(SVM)凭借核技巧将低维非线性可分微表情特征映射高维线性可分空间,依最大间隔划分表情类别,对小样本、非线性微表情数据鲁棒;决策树系列(C4.5、随机森林)基于特征属性构建树形结构分类器,依据特征取值分支决策,直观易懂且训练高效,通过集成学习提升泛化与抗噪能力,应对长视频复杂干扰下微表情分类。
4.3.2 深度学习分类模型
长短期记忆网络(LSTM)因特殊门控结构能记忆长序列依赖,与 CNN 结合(LSTM - CNN 架构),CNN 提取单帧特征,LSTM 关联多帧时序特征建模微表情动态演变,端到端训练适配长视频连续分析;3D 卷积神经网络(3D - CNN)将视频视作三维(帧、宽、高)数据,直接学习时空联合特征,捕捉微表情跨帧时空动态模式,强化识别精度与效率。[8]
5.长视频微表情识别数据集与评估指标
5.1 常用数据集
CASME 系列:如 CASME II,含 26 个受试者 247 个微表情样本,标注丰富 AU 信息、情绪类别(厌恶、悲伤等),视频帧率 60fps,高清捕捉面部细节,场景涵盖实验室诱发情绪情境,是微表情基础研究关键数据支撑,助于算法性能测试对比。
SMIC 数据集:采集自自然与实验室混合场景,分高、中、低光照子集,含 164 个微表情序列,着重考察光照复杂环境微表情识别,推动算法光照鲁棒性提升,多样录制设备、拍摄角度贴近现实长视频状况。
5.2 评估指标
分类准确率:正确分类微表情样本占总样本比例,直观反映模型整体识别对错能力,越高表明模型精准判别各类别微表情水平越强,是首要性能衡量指标。
召回率与精确率:召回率指正确识别某类微表情样本占实际该类样本数比例,衡量对正样本覆盖程度;精确率是正确识别为某类微表情样本占预测为该类样本数比例,权衡预测精准性,二者结合 F1 值综合评估模型在不同类别微表情识别表现,平衡漏报与误报情况。
时间相关指标:平均延迟时间考量从微表情起始至模型识别输出耗时,越短代表识别及时性越好,契合长视频实时监测需求,确保关键情绪信号快速捕捉反馈。
6.长视频微表情识别应用领域
6.1 安防监控领域
在机场、银行、街头等监控场景,长视频微表情识别辅助甄别可疑人员。如机场安检口,旅客面对询问神色紧张,微表情泄露不安,系统实时捕捉识别,结合行为轨迹,精准锁定潜在安全风险,预防违法犯罪,相较传统监控单纯依靠行为分析,增添情绪洞察维度,预警更敏锐。
6.2 人机交互方面
智能客服、智能家居交互场景应用广泛。智能客服对话中,依据用户微表情变化(困惑皱眉、不满撇嘴)实时调整回答策略、切换人工服务;智能家居设备依主人进门微表情判读情绪,温馨提示或调节环境氛围(灯光亮度、音乐风格),提升交互体验人性化、智能化。
6.3 医疗健康应用
心理诊疗时,分析患者长视频咨询记录微表情,辅助抑郁症、焦虑症等精神疾病诊断,洞察情绪起伏、抵触隐瞒情绪,跟踪康复进程中表情改善状况;康复治疗里,借微表情反馈评估理疗、言语治疗效果,优化方案,增强医疗干预针对性。
7.长视频微表情识别面临挑战与未来展望
7.1 现存挑战
数据标注瓶颈:微表情标注需专业知识、精细耗时操作,长视频标注工作量呈指数级增长,导致高质量标注数据稀缺,限制深度学习模型充分训练,尤其多模态、复杂场景标注规范与一致性难保障。
模型计算成本:深度学习模型架构复杂、参数繁多,长视频逐帧处理对算力要求严苛,训练与推理耗时久、能耗高,边缘设备(安防摄像头、移动终端)部署受限,难以实现实时高效分析。
跨场景适应性差:现有算法多在特定数据集、场景优化,换至真实复杂长视频(极端光照、剧烈姿态),识别精度骤降,模型泛化能力待提升,难以无缝对接多行业多元应用场景需求。
7.2 未来趋势
长视频微表情识别在数据集建设革新方面将会构建大规模、多模态(融合语音情感、肢体动作)、跨场景长视频微表情数据集,利用众包标注、半自动化标注工具提高效率,规范标注体系,为算法突破筑牢数据根基。在轻量级模型研发方面探索如 MobileNet、ShuffleNet 等轻量化神经网络架构优化,结合模型压缩(剪枝、量化)、知识蒸馏技术,削减计算量同时维持识别精度,适配边缘计算、实时处理需求。在多模态融合与强化学习方面在未来将整合语音语调、肢体姿态情感线索与微表情互补,借助强化学习依应用反馈动态优化识别策略,增强系统自适应、智能决策能力,拓宽长视频微表情识别应用边界,解锁更多实用价值。
8.结束语
长视频微表情识别面临标注耗时费力,标注数据匮乏、模型训练计算成本高、跨场景普适性差等难题。未来需构建大规模长视频数据集、优化轻量级高效模型、融合多模态(语音、肢体动作)信息,突破现有局限,解锁更多应用潜能,实现更精准的智能情感洞察。长视频微表情识别作为融合计算机视觉、心理学、机器学习多学科前沿领域,历经多年发展在理论、技术、应用取得显著进展,虽面临系列挑战,但随着数据资源扩充、算法创新迭代、硬件算力升级,有望突破局限,深度嵌入社会各层面,变革安防、交互、医疗运作模式,实现精准情感感知与智能决策赋能。
参考文献:
[1]熊昊晗,仲鹏飞,钱易,王诗媛.基于深度学习的人脸微表情识别及分析研究[J].电脑编程技巧与维护,2024(10):127-129.
[2]战子为, 孙兆才, 李翔, 吴镇东.基于递增注意力的微表情识别方法[J].深圳大学学报(理工版),2024(06):118-126.
[3] Viola P, Jones M. Robust real-time face detection[J]. International journal of computer vision, 2004, 57(2): 137-154.
[4] Zhang K, Zhang L, Li Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.
[5] 张山山,胡志慧.基于YOLOv5的微表情识别技术研究[J].曲阜师范大学学报(自然科学版),2024(03):102-108.
[6]任宇,陈新泉,王岱嵘,陈新怡.改进残差网络与峰值帧的微表情识别[J].重庆工商大学学报(自然科学版),2024(01)P:25-33.
[7]曾岚蔚,许青林.基于深度卷积注意胶囊网络的微表情识别方法[J].计算机工程与设计,2022(09):239-245
[8]叶天祺,曾张帆.基于持续时空注意力网络的人脸微表情识别[J].南昌大学学报(理科版),2023(01)P:98-105.
基金项目:安徽省高校自然科学研究重点项目“基于长视频下的人脸微表情分割与识别的研究”(2022AH052921)和安省高校自然科学研究重大项目“基于教学场景下的学生行为分析研究”(2022AH040354)
作者简介:马玲玲(1976—),女 ,安徽淮北人,讲师,计算机软件与理论专业2011级硕士研究生,研究方向:图形图像处理。