基于混合卷积融合Transformer 网络的高光谱图像分类
王金博
广州工商学院 广东广州 510800
0 引 言
随着人工智能技术的不断发展,深度学习(Deep Learning)具备出色的特征提取能力被广泛应用于高光谱图像技术领域。卷积神经网络(CNN)作为最典型的方法被逐步应用于高光谱图像分类。由于HSI 的高维特性,提取空间-光谱联合特征的方法被提出。Lin 等人提出 3DCAMNet,采用基于三维卷积神经网络的卷积模块,更充分地提取高光谱图像的光谱和空间信息[1]。在单分类网络提取特征的基础上,Roy 等人提出混合 3D-2D-CNN 分类网络,该网络首先利用 3D-CNN 提取到空谱联合特征,又利用 2D-CNN 进一步提取空间特征,取得良好的分类效果 [2]。
为了建模序列中的长距离依赖关系,Transformer 模型被提出用于解决HSI 分类问题,它通过编码光谱位置信息来学习光谱序列的顺序关系。Hong 等人 [3] 提出了Spectral Former 新型网络,能够从高光谱图像的相邻波段中学习光谱局部序列信息,提高了分类性能。Xue 等人 [4] 提出一种带有空间分区恢复模块的局部 Transformer 网络,捕获全局上下文依赖关系的同时, 可以很好地适应HSI 空间像素的内在变化。为了提取空间- 光谱序列信息,Sun 等人 [5] 提出 SSFTT 分类方法,该方法利用 CNN 捕获低级的光谱空间特征后将其转换成语义 tokens,将 Transformer 结构与语义 tokens 结合使得特征更加充分。
1. 混合卷积融合 Transformer 网络
在混合卷积 CNN 网络中,为了能够有效地捕捉高光谱图像中的复杂特征,设计由 1 个 3D 卷积层和 2 个残差卷积块和注意力机制组成。首先,令初始图像为,其中 M 和 N 分别是 HSI 的长度和宽度,L 是 HSI 的光谱波段数。图像 I经 PCA 降维后,被划分成 P×P×K 大小的图像块,其中 P 是图像块的长度和宽度,K 是降维后的光谱深度,即。将图像块 X 输入网络中进行卷积和残差卷积,通过 3×3×7 的 3D 卷积和 3×3×5 、 3×3×3 的 3 维残差卷积提取特征,混合卷积旨在避免深层神经网络中的梯度消失和梯度爆炸问题。
在 Transformer 模块中,将混合卷积的特征输入到该网络中。首先通过一个 1×1×1 的 3D 卷积层对 3D 卷积模块输出的特征进行处理,生成位置编码向量,然后将位置编码向量与原始特征相加,得到包含位置信息的特征表示。其次,将经过位置编码后的特征输入多头注意力前,需要将空间 - 光谱维度展平为序列长度,因此输入特征重塑为,其中 s 表示总序列长度,d 表示特征维度。输入矩阵经过线性变换得到查询向量,键向量,值向量。然后计算查询向量与键向量之间的点积相似度,即Q 与 K 点乘处理,后经过Softmax 函数进行归一化,最后,将注意力权重矩阵与值向量进行加权求和,得到多头注意力机制的输出。最后将 X2 输入前馈网络,进行进一步的特征变换和非线性映射,以增强模型的表达能力,得到Transformer 模块的最终输出。
2D 卷积层通过二维卷积核对 Transformer 模块的最终特征进行处理,有效地提取特征的空间信息。然后将 2D 卷积层提取的空间特征与 Transformer 模块输出的特征经全局池化后进行特征融合。该方法能够充分利用 2D 卷积层提取的空间特征和 Transformer 模块挖掘的长距离依赖关系特征,提高模型对高光谱图像的分类能力。
2. 实验结果对比
根据 HSI 高维性的特点,网络的优化器选择 Adam 优化器,学习率设置为0.001,网络训练最大迭代次数为100 次,实验结果取5 次实验的平均值。
实验主要对比了将本文算法与 3D-CNN、SSRN 在 IP 数据集和 PU 数据集上进行对比来验证分类性能。IP 数据集采用 10% 的训练样本,其余作为测试样本。从表1 中可以看到,在数据样本较少时,三种方法的各个类别分类精度都不够高,但是本文总体来讲 OA、AA 和 Kappa 均高于其他两种方法。PU 数据集由于各种样本数量相对比较多,因此选取了 5% 的随机样本作为训练集,剩余作为测试集。从表1 中可以看出,除了在Sheets 类别上,本文方法低于其它他两种方法,另外 8 种类别中,本文所提方法均优于其它类别,在 OA、AA 和 Kappa 上也同样优于其它方法。
以上结果表明,所提方法有效改善了部分类别错分的情况,说明混合卷积与 Transformer 融合能够有效聚合空间 - 光谱联合特征,充分挖掘深层次的全局信息,有效提升分类精度。
表 1 IP 和 PU 数据集分类结果


3. 总结
本文提出混合卷积融合 Transformer 网络,取得了一定的分类效果。在模型设计方面,融合了 CNN 和 Transformer 网络的优势。混合卷积通过多个3D 卷积层和残差块的协同作用,有效地提取高光谱图像的空间和光谱特征。Transformer 模块挖掘了高光谱图像特征之间的长距离依赖关系,进一步提升了特征的表达能力。2D 卷积模块对 Transformer 输出的特征进行空间特征细化和融合,使得模型能够更准确地对高光谱图像进行分类。在 IP 和 PU 数据集上都取得了不错的分类精度。
参考文献:
[1]J. Lin, L. Mou, X. X. Zhu, X. Ji and Z. J. Wang,“AttentionAware Pseudo-3-D Convolutional Neural Network for Hyperspectral Image Classification,”in IEEE Transactions on Geoscience and Remote Sensing, vol. 59, no. 9, pp. 7790-7802, Sept. 2021.
[2]S. K. Roy, G. Krishna, S. R. Dubey and B. B. Chaudhuri, “HybridSN: Exploring 3-D–2-D CNN Feature Hierarchy for Hyperspectral Image Classification,” in IEEE Geoscience and Remote Sensing Letters, vol. 17, no. 2, pp. 277-281, Feb. 2020, doi: 10.1109/LGRS.2019.2918719.
[3]HONG D F, HAN Z, YAO J, et al. SpectralFormer: rethinking hyperspectral image classification with transformers [J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-15.
[4]Z. Xue, Q. Xu and M. Zhang, “Local Transformer With Spatial Partition Restore for Hyperspectral Image Classification,” in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 15, pp. 4307-4325, 2022.
[5]L. Sun, G. Zhao, Y. Zheng and Z. Wu, “Spectral–Spatial Feature Tokenization Transformer for Hyperspectral Image Classification,” in IEEE Transactions on Geoscience and Remote Sensing, vol. 60, pp. 1-14, 2022, Art no. 5522214.
作者简介:王金博(1998.05-),女,汉族,河南孟津人,助教,硕士研究方向:深度学习与高光谱图像分类
课题:中国民办教育协会2025 年度规划课题;课题编号:CANQN250749