多尺度特征下可见光和红外图像融合算法探析

前言

在图像处理及计算机视觉领域，可见光与红外图像的跨模态融合研究尤为重要。可见光图像因其色彩与纹理信息较为丰富，可以精准体现目标的外观特征，而红外图像凭借自身的热辐射特性，在低照度或复杂环境条件下表现出较强的目标检测能力。由于单模态数据本身存在一些不足，所以跨模态融合则成为改善信息表现效果的关键路径。多尺度特征分析方法把原始图像分解成不同分辨率层级的子带结构，从而做到对多种层次信息的有效获取与整合，在此基础之上，依靠视觉显著性引导、注意力机制改良以及多模态特征协同等新式手段，相关算法得到改善，基于此，本文针对多尺度特征下可见光和红外图像融合算法进行深入探究。

1 可见光和红外图像的特性

1.1 可见光图像特性

可见光图像依靠物体对可见光的反射特性形成，其成像原理同人类视觉感知极为类似，这种图像有着明显的优势，可以准确表现目标的色彩、纹理以及几何结构等关键特点。在平常的光照环境下，可见光图像被普遍应用到人脸识别、环境监测、物品分类等领域，并且在安防监控、图像处理以及数码摄影等行业也发挥着重要的作用 [1]。由于受外部光源状况的影响较大，所以在夜间、浓雾或者强降雨等复杂环境中，其成像品质容易出现大幅度下滑，甚至无法得到可用的数据，进而增加目标定位和识别的难度。

1.2 红外图像特性

红外成像技术依靠目标热辐射特性来形成图像，能在烟雾、粉尘以及低光照环境下维持稳定表现，准确显示物体温度分布情况。例如，在军事领域，该技术被大量应用到敌方目标识别和隐蔽设施探测中；安防监控场合下，可以做到全天候、无光源条件下的动态目标追踪；工业检测方面，常用于设备故障诊断、管道泄漏定位等任务。由于缺少色度信息，对目标细节的表征能力比较差，而且图像空间分辨率较低，很难提供与可见光图像类似的丰富视觉信息。

2 多尺度特征下可见光和红外图像融合算法

2.1 基于视觉显著性和多尺度分解的融合算法

2.1.1 算法原理

视觉显著性理论重点讲述人类视觉系统对于图像关键部分的优先注意现象，按照这种理论，创建一个结合多尺度分解和视觉显著性分析的图像融合框架。通过小波变换或者Contourlet 变换等多尺度分解手段，对可见光与红外图像进行预处理，把原始图像分解成很多不同尺度和频域特性的子带信号，从而获取其多层次结构特征；接着，采用 Itti 模型或者其他依靠深度学习的显著性检测算法，在各个尺度下分别产生出可见光和红外图像的显著性图谱，像素值大小可以直观地显示对应区域的重要程度 [2]。凭借综合显著图以及多尺度子带信息，规划融合策略，达成两类图像优势信息的高效融合，最后形成高精度的融合结果。

2.1.2 技术实现

在多尺度分解环节，借助小波变换技术，对可见光以及红外图像进行多层次分解，可以得到低频近似子带、若干高频细节子带。低频子带大多承载着图像的整体结构和宏观轮廓等信息，高频子带则蕴含着很多边缘特征、纹理细节等局部特性[3]。在视觉显著性分析环节，如果选用深度学习手段，则可用预训练过的显著性检测模型，如 PoolNet、BASNet，处理各个分解层级的图像，进而产出相应的显著性映射图谱。在融合规则设计方面，针对低频子带，可以依据显著图对可见光与红外图像低频子带执行加权融合，其公式如下：

式中： F_low(i,j) 表示融合后低频子带的像素值；表示可见光图像低频子带的像素值； I_low(i,j) 表示红外图像低频子带的像素值；SV( i, j)表示可见光图像对应位置的显著值；SI( i, j)表示红外图像对应位置的显著值。对于高频子带部分，优先采用显著性较高的图像高频子带像素值作为最终融合结果。

2.2 基于注意力和多尺度残差网络的融合算法

2.2.1 算法原理

该算法集成注意力机制与多尺度残差网络模型，利用深度学习技术开展图像融合工作。注意力机制可以引导网络着重关注关键区域信息，同时抑制冗余部分；多尺度残差网络则通过多层次卷积操作来提取图像的多维度特征表示，并且依靠残差连接解决深层网络训练时出现的梯度消失现象。在实际运用中，算法把可见光及红外图像当作输入源，经过多尺度残差网络各自提取不同层级的特征之后，再利用注意力机制动态调整这些特征的权重，从而凸显核心信息，最后凭借自定义的融合模块将两路图像特征统一起来，进而得到最终融合结果。

2.2.2 技术实现

多尺度残差网络的架构设计大多依靠多种尺寸的残差单元，这些残差单元一般包含卷积层、激活函数以及残差链接。该模型在经典的ResNet 基础上做了改进，它在各个层级里嵌入了不同规格的卷积核，以此来达成对多维度特征的提取。为了改良网络性能，融合通道与空间注意力机制。通道注意力模块凭借全局均值池化和最大池化操作，整合特征图的通道维度信息，再通过全连接层映射形成注意力权重向量；空间注意力模块则重点考察特征图的空间分布特点，通过平均池化和最大池化操作提取局部空间特征，最后经过卷积运算生成空间注意力权重参数。通道注意力机制与空间注意力机制分别对特征图施以加权操作，进而达成对特征信息的优化整合，在融合阶段，采用直接相加或者加权组合的方式，将预处理过的可见光与红外图像特征进行合并，并且依靠反卷积等手段，恢复目标图像的原始分辨率，最后形成融合后的输出结果。

结语：在多尺度特征整合框架中，可见光与红外图像的融合算法备受关注。将视觉显著性和多尺度分解结合，会模仿人眼对重要区域特点的识别；基于注意力机制和多尺度残差网络的融合算法，则依靠深度学习，实现自动生成特征，并准确对齐。未来，应不断优化算法结构，积极探索与其他技术的融合，进而为各行各业提供优质的图像信息处理技术支持。

参考文献

[1] 李秒 , 郝元宏 , 许树园 . 红外与可见光图像融合算法研究 [J]. 火力与指挥控制 ,2025,50(03):165- 177.

[2] 郝昱权 . 基于 NSST 与深度学习的红外图像与可见光图像融合算法 [J]. 河北软件职业技术学院学报 ,2024,26(04):12- 17.

[3] 段朝伟 , 徐海刚 , 张英争 , 等 . 基于视觉显著性的红外与可见光图像融合算法 [J]. 河南工学院学报 ,2024,32(06):26- 30+69.

作者简介：吴慧琳（1999.3- ）女，汉族，硕士，助教，安徽池州人，研究方向：数学教育。

课题：本文系 2024 年安徽高校自然科学研究项目《可见光与红外双光图像配准与融合研究》（项目编号：X ZR 2024B11）的研究成果。

多尺度特征下可见光和红外图像融合算法探析

吴慧琳

Related Articles

特种设备压力容器环境腐蚀检验及分析方法研究

浅析刘庄《浪漫曲》的艺术特征与演奏技巧

试论舞蹈教学中的具身传播

事业单位纸质档案与电子档案的融合管理实践

核心素养视域下高中英语深度阅读教学模式的实践研究