基于深度学习的视频通信质量增强方法研究

引言

视频通信在远程会议、实时监控及云游戏领域应用广泛，画质却受带宽波动与编码压缩制约。主流 H.265/HEVC 编码标准虽较 H.264/ 高级视频编码（AdvancedVideo Coding，AVC）提升50% 压缩效率，低码率场景仍会产生块效应、振铃伪影；传输噪声进一步降低主观质量。传统增强方法如小波变换、非局部均值滤波，难以同时处理多类型失真且计算复杂度高。深度学习在图像超分辨率、去噪任务中表现优异，但现有视频增强模型多聚焦单帧处理，忽略帧间时空相关性，导致帧间抖动。设计兼顾时空特征利用与实时性的增强方法，对提升低带宽场景视频通信体验意义重大。

1 视频通信中的失真类型与传统增强方法局限

视频通信失真源于编码压缩与传输噪声。编码压缩失真中，块效应由帧内预测与变换编码导致，表现为 8×8 或 16×16 像素块边界灰度跳变；振铃伪影因量化过程高频分量丢失，在图像边缘形成周期性明暗条纹，H.265/HEVC 标准中基于上下文的自适应二进制算术编码（Context-Adaptive Binary ArithmeticCoding，CABAC）在码率低于 500 kbps 时会加剧这类失真。传输噪声以高斯白噪声（像素值随机波动）与脉冲噪声（局部像素值突变）为主，无线网络环境下两类噪声并存且强度随带宽降低而增加。传统增强方法中，双边滤波结合空间邻近度与灰度相似度去噪，滤波核 5×5 时对 16×16 块边界失真消除率仅 42% ；非局部均值滤波需遍历全局寻找相似块，计算复杂度达 0(N² )（N 为视频帧像素数），1080P 分辨率视频处理时延超 200ms ；小波变换固定小波基难以适配动态失真特征，对振铃伪影抑制效果较所提模型低1.5 dB（以PSNR 为指标）。

2 基于深度学习的视频质量增强模型设计

2.1 模型整体架构

所提模型为端到端架构，含帧间特征融合、多尺度 CNN 特征提取与通道注意力优化三模块。帧间特征融合模块以连续 3 帧为输入，通过光流估计网络（FlowEstimation Network，FEN）计算相邻帧运动矢量，FEN 采用 U 型结构，编码端 5层 CNN 提取帧间纹理特征，解码端上采样与跳跃连接恢复运动矢量空间分辨率，运动矢量用于前一帧运动补偿，补偿后帧与当前帧像素级加权融合，融合权重由帧间差异值自适应调整。多尺度 CNN 特征提取模块设 3 个并行 CNN 分支，分别用3×3 、 5×5 、 7×7 卷积核提取不同尺度失真特征，每个分支含 4 层卷积层与 1 层批归一化层，卷积层采用ReLU 激活函数，批归一化层标准化特征图加速训练收敛，3 个分支特征图拼接形成多尺度特征集合。通道注意力优化模块对多尺度特征集合分配通道权重，先通过全局平均池化将通道特征图转化为 1×1 向量，再经 2层全连接层与 Sigmoid 激活函数生成 0^～1 范围的注意力权重，权重与多尺度特征集合逐通道相乘，最后经1 层 3×3 卷积层输出增强帧。

2.2 模型损失函数设计

模型训练采用复合损失函数，结合均方误差（Mean Squared Error，MSE）损失与感知损失，同步优化客观质量与主观视觉效果。MSE 损失计算增强帧与原始高清帧像素差异，公式为：

十，H、W、C 分别为视频帧高度、宽度与通道数，分别为增强帧与原始帧在位置的像素值，MSE 损失降低帧整体灰度偏差以提升 PSNR。感知损失基于预训练 VGG-16 网络，提取增强帧与原始帧在VGG-16 第5 卷积块第2 层的特征图，计算特征图欧氏距离，公式为：

式（2）中，、、分别为 VGG-16 特征图高度、宽度与通道数，F_rmionred(p,q,r) 、分别为增强帧与原始帧在 (p,q,γ) 位置的特征值，感知损失使增强帧纹理贴近原始帧。复合损失函数为两者加权和：

I_iniz=C×Z_iniz+β×I_iniz,

式（3）中， a=0.6 、 β=0.4 （实验确定），实现PSNR 与主观效果平衡。

3 实验验证与结果分析

3.1 实验环境与测试数据集

实验硬件为 Intel Core i7-12700K 处理器、NVIDIA RTX 3090 显卡（24 GB显存），软件基于 Python 3.8、PyTorch 1.12 搭建，采用 Adam 优化器，初始学习率 0.001，每 10 个 epoch 衰减至原 0.5，训练总 epoch 100。测试数据集含 VQADB 的 8 个 4K 视频序列（ 3840×2160 ，30 fps）与自建低带宽数据集，自建数据集通过 H.265/HEVC 编码器设 200 kbps、500 kbps、1000 kbps 码率压缩原始 4K视频生成，每个码率 10 个序列，每序列 10 s（300 帧），传输中加入 0. 01^～0 .05方差高斯白噪声与 1%～3% 概率脉冲噪声。对比算法为双边滤波、非局部均值滤波、基于单帧 CNN 的增强算法（Single-Frame CNN，SFCNN），均在相同硬件运行以保证公平性。

3.2 实验结果与分析

实验从客观质量（PSNR、SSIM）与实时性（推理时延）评估性能，结果如表1、表2 所示。

表1 不同算法在自建低带宽视频数据集上的客观质量指标对比

由表1 可知，各码率场景下所提模型指标均最优。200 kbps 低带宽极限场景，PSNR 较双边滤波提升 3.3 dB、较 SFCNN 提升 1.1 dB；SSIM 较双边滤波提升 0.09、较 SFCNN 提升 0.04，印证模型对压缩伪影与传输噪声的消除能力，这源于帧间时空特征利用与通道注意力机制对关键失真的抑制作用。

表2 不同算法在1080P 分辨率视频上的推理时延对比（单位：ms）

由表2可知，所提模型单帧时延 32ms,10 s总时延 960ms ，虽高于双边滤波，但远低于非局部均值滤波与 SFCNN。实时性优势源于轻量化设计：FEN 采用轻量 U型结构减少运动估计计算量；多尺度 CNN 通过并行分支与小尺寸卷积核组合，在保证特征提取能力的同时将参数降至8.2 M（较SFCNN减少 35% ），满足实时通信（单帧时延 ⟨100ms| ）要求。主观效果上，所提模型增强帧块边界无灰度跳变、边缘清晰、噪声抑制彻底，对比算法低码率下仍有明显伪影。

4 结语

本文提出的深度学习视频通信质量增强方法，融合帧间时空特征、多尺度失真特征提取与通道注意力优化，实现低带宽环境下压缩伪影消除、噪声抑制与分辨率提升的一体化处理。实验表明，该方法 PSNR 与 SSIM 较传统算法及单帧 CNN算法显著提升，推理时延 ⟨35ms ，满足实时需求。方法局限性在于极端运动场景（快速移动目标）运动估计精度待提升，未来可结合光流估计与特征匹配优化帧间运动补偿；同时探索模型量化与剪枝技术，降低计算复杂度以适配移动端等资源受限设备，扩大应用范围。

参考文献

[1] 刘伟 , 王孟洋 , 白宝明 . 面向带宽受限场景的高效语义通信方法 [J]. 西安电子科技大学学报 ,2024,51(03):9- 18.

[2] 陈永红 . 基于深度学习的电子通信信号降噪方法研究 [J]. 中国宽带 ,2025,21(04):31- 33.

[3] 智慧 , 费洁 , 葛鸿杰 . 终端协作通信中基于深度学习的路径选择方法 [J].北京邮电大学学报 ,2025,48(02):98- 105.

王好怡

1988/10/10

女

汉

青岛

本科

无职称

论文方向：工程技术- 通信工程

工作单位：

基于深度学习的视频通信质量增强方法研究

王好怡

Related Articles

技术驱动，素养导向

“三学” 课堂教学模式在小学数学教学中的实践

幼儿园园本科学教育课程提高幼儿观察及动手操作能力的教学策略

就业心理危机干预与安全保障体系的建构及运行研究

生活教育理念下培养中班幼儿良好生活习惯的实践探究