基于混合卷积融合Transformer 网络的高光谱图像分类

0 引言

随着人工智能技术的不断发展，深度学习（Deep Learning）具备出色的特征提取能力被广泛应用于高光谱图像技术领域。卷积神经网络（CNN）作为最典型的方法被逐步应用于高光谱图像分类。由于HSI 的高维特性，提取空间-光谱联合特征的方法被提出。Lin 等人提出 3DCAMNet，采用基于三维卷积神经网络的卷积模块，更充分地提取高光谱图像的光谱和空间信息[1]。在单分类网络提取特征的基础上，Roy 等人提出混合 3D-2D-CNN 分类网络，该网络首先利用 3D-CNN 提取到空谱联合特征，又利用 2D-CNN 进一步提取空间特征，取得良好的分类效果 [2]。

为了建模序列中的长距离依赖关系，Transformer 模型被提出用于解决HSI 分类问题，它通过编码光谱位置信息来学习光谱序列的顺序关系。Hong 等人 [3] 提出了Spectral Former 新型网络，能够从高光谱图像的相邻波段中学习光谱局部序列信息，提高了分类性能。Xue 等人 [4] 提出一种带有空间分区恢复模块的局部 Transformer 网络，捕获全局上下文依赖关系的同时, 可以很好地适应HSI 空间像素的内在变化。为了提取空间- 光谱序列信息，Sun 等人 [5] 提出 SSFTT 分类方法，该方法利用 CNN 捕获低级的光谱空间特征后将其转换成语义 tokens，将 Transformer 结构与语义 tokens 结合使得特征更加充分。

1. 混合卷积融合 Transformer 网络

在混合卷积 CNN 网络中，为了能够有效地捕捉高光谱图像中的复杂特征，设计由 1 个 3D 卷积层和 2 个残差卷积块和注意力机制组成。首先，令初始图像为，其中 M 和 N 分别是 HSI 的长度和宽度，L 是 HSI 的光谱波段数。图像 I经 PCA 降维后，被划分成 P×P×K 大小的图像块，其中 P 是图像块的长度和宽度，K 是降维后的光谱深度，即。将图像块 X 输入网络中进行卷积和残差卷积，通过 3×3×7 的 3D 卷积和 3×3×5 、 3×3×3 的 3 维残差卷积提取特征，混合卷积旨在避免深层神经网络中的梯度消失和梯度爆炸问题。

在 Transformer 模块中，将混合卷积的特征输入到该网络中。首先通过一个 1×1×1 的 3D 卷积层对 3D 卷积模块输出的特征进行处理，生成位置编码向量，然后将位置编码向量与原始特征相加，得到包含位置信息的特征表示。其次，将经过位置编码后的特征输入多头注意力前，需要将空间 - 光谱维度展平为序列长度，因此输入特征重塑为，其中 s 表示总序列长度，d 表示特征维度。输入矩阵经过线性变换得到查询向量，键向量，值向量。然后计算查询向量与键向量之间的点积相似度，即Q 与 K 点乘处理，后经过Softmax 函数进行归一化，最后，将注意力权重矩阵与值向量进行加权求和，得到多头注意力机制的输出。最后将 X₂ 输入前馈网络，进行进一步的特征变换和非线性映射，以增强模型的表达能力，得到Transformer 模块的最终输出。

2D 卷积层通过二维卷积核对 Transformer 模块的最终特征进行处理，有效地提取特征的空间信息。然后将 2D 卷积层提取的空间特征与 Transformer 模块输出的特征经全局池化后进行特征融合。该方法能够充分利用 2D 卷积层提取的空间特征和 Transformer 模块挖掘的长距离依赖关系特征，提高模型对高光谱图像的分类能力。

2. 实验结果对比

根据 HSI 高维性的特点，网络的优化器选择 Adam 优化器，学习率设置为0.001，网络训练最大迭代次数为100 次，实验结果取5 次实验的平均值。

实验主要对比了将本文算法与 3D-CNN、SSRN 在 IP 数据集和 PU 数据集上进行对比来验证分类性能。IP 数据集采用 10% 的训练样本，其余作为测试样本。从表1 中可以看到，在数据样本较少时，三种方法的各个类别分类精度都不够高，但是本文总体来讲 OA、AA 和 Kappa 均高于其他两种方法。PU 数据集由于各种样本数量相对比较多，因此选取了 5% 的随机样本作为训练集，剩余作为测试集。从表1 中可以看出，除了在Sheets 类别上，本文方法低于其它他两种方法，另外 8 种类别中，本文所提方法均优于其它类别，在 OA、AA 和 Kappa 上也同样优于其它方法。

以上结果表明，所提方法有效改善了部分类别错分的情况，说明混合卷积与 Transformer 融合能够有效聚合空间 - 光谱联合特征，充分挖掘深层次的全局信息，有效提升分类精度。

表 1 IP 和 PU 数据集分类结果

3. 总结

本文提出混合卷积融合 Transformer 网络，取得了一定的分类效果。在模型设计方面，融合了 CNN 和 Transformer 网络的优势。混合卷积通过多个3D 卷积层和残差块的协同作用，有效地提取高光谱图像的空间和光谱特征。Transformer 模块挖掘了高光谱图像特征之间的长距离依赖关系，进一步提升了特征的表达能力。2D 卷积模块对 Transformer 输出的特征进行空间特征细化和融合，使得模型能够更准确地对高光谱图像进行分类。在 IP 和 PU 数据集上都取得了不错的分类精度。

参考文献：

[1]J. Lin, L. Mou, X. X. Zhu, X. Ji and Z. J. Wang,“AttentionAware Pseudo-3-D Convolutional Neural Network for Hyperspectral Image Classification,”in IEEE Transactions on Geoscience and Remote Sensing, vol. 59, no. 9, pp. 7790-7802, Sept. 2021.

[2]S. K. Roy, G. Krishna, S. R. Dubey and B. B. Chaudhuri, “HybridSN: Exploring 3-D–2-D CNN Feature Hierarchy for Hyperspectral Image Classification,” in IEEE Geoscience and Remote Sensing Letters, vol. 17, no. 2, pp. 277-281, Feb. 2020, doi: 10.1109/LGRS.2019.2918719.

[3]HONG D F, HAN Z, YAO J, et al. SpectralFormer: rethinking hyperspectral image classification with transformers [J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-15.

[4]Z. Xue, Q. Xu and M. Zhang, “Local Transformer With Spatial Partition Restore for Hyperspectral Image Classification,” in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 15, pp. 4307-4325, 2022.

[5]L. Sun, G. Zhao, Y. Zheng and Z. Wu, “Spectral–Spatial Feature Tokenization Transformer for Hyperspectral Image Classification,” in IEEE Transactions on Geoscience and Remote Sensing, vol. 60, pp. 1-14, 2022, Art no. 5522214.

作者简介：王金博（1998.05-），女，汉族，河南孟津人，助教，硕士研究方向：深度学习与高光谱图像分类

课题：中国民办教育协会2025 年度规划课题；课题编号：CANQN250749

基于混合卷积融合Transformer 网络的高光谱图像分类

王金博

Related Articles

大单元整合视角下初中语文项目化学习的策略探究

地方应用型高校数字营销人才培养路径研究

慧心育德精细节教育精神共弘扬

奶牛酮病预警模型优化

论内心视像在话剧角色塑造中的隐喻功能与呈现策略