缩略图
Primary Education

U-Net与注意力机制融合变体的图像分割算法

作者

阎华烨 邵焱 程贶睿 蔡志丹

长春理工大学数学与统计学院 吉林长春 130022

摘要:U-Net模型凭借其独特的编码器-解码器架构和跳跃连接,在图像分割领域表现出色,尤其适用于遥感图像处理。通过与注意力机制融合,U-Net变体进一步提升了分割精度和鲁棒性,展现出广阔的发展前景。本文探讨了U-Net及其与注意力机制融合的变体在图像分割中的应用,展现了其在遥感图像处理中的显著优势和发展潜力。

关键词:深度学习 U-Net 注意力机制

引言

智慧城市中,遥感图像分割因复杂背景和模糊边界面临挑战。U-Net通过编码器-解码器架构和跳跃连接提升精度,研究者进一步引入深度可分离卷积、残差连接、空洞卷积等改进,增强复杂场景分割能力。注意力机制如自注意力和多头注意力的融合,提升了全局与细粒度特征捕捉,推动遥感图像分割在智慧城市等领域的应用。

1 U-net基础以及相关变体

1.1 U-Net结构和工作原理

U-Net 模型是一种深度学习网络结构,被广泛应用于图像分割任务中。其独特的 U 型结构由编码器和解码器两部分组成,同时利用跳跃连接机制,以实现对图像的准确分割。

1.2 CAS-UNet

跨通道信息融合通过加权、拼接或卷积等方式整合多通道特征图,提取更丰富的特征表示,增强模型对图像特征的理解能力。在跨融合通道注意机制中,注意力机制应用于通道维度,计算每个通道的权重并对特征进行加权处理。权重较大的通道特征会被模型重点关注,而权重较小的特征则相对忽略,从而优化特征提取效果。

1.3DA-TransUNet

DA-TransUNet中,DA-Block集成到U-Net以增强分割性能。在编码器部分,DA-Block置于Transformer层前,细化特征映射,提升全局特征提取精度;编码器结合CNN和Transformer,丰富特征表示。跳跃连接中,DA-Block优化编码器特征,过滤冗余信息,提高传递效率。解码器采用传统卷积,上采样和细化特征,生成更准确分割结果。结合空间和通道注意力机制(PAM和CAM),DA-Block显著提升DA-TransUNet性能,使其在图像分割任务中表现优异。

1.4 CBAM-UNet

在CBAM-UNet中,卷积块注意力模块(CBAM)与U-Net的融合显著提升了特征提取能力。在编码器部分,CBAM嵌入卷积层或池化层之后,通过对特征图的通道和空间注意力加权,提取更关键的特征信息。跳跃连接部分引入CBAM,优化传递的特征信息,增强解码器对细节信息的捕捉能力。解码器部分同样利用CBAM对上采样后的特征图进行加权,生成更精细和准确的分割结果。这种融合策略为图像分割任务提供了新的解决方案,并具有广泛的应用潜力。

1.5AG-UNet

注意力门(Attention Gates,简称AGs)是一种注意力机制的实现方式,它主要用于图像分析、自然语言处理(NLP)等领域。AGs通过生成一个门控信号,来控制不同空间位置处特征的重要性,从而更有效地调整特征的权重,提高模型的性能。

将注意力门引入UNet中,可以形成AG-UNet,这种结合方式能够显著提升图像分割的精度和效率。

2 数据评价指标

对于图像的分割实验,由于不同的模型和分割方法可能导致性能差异,因此需要特定的评价指标来进行分析。在图像分类任务中,同样可以使用TP(True Positive)、FP(False Positive)和FN(False Negative)的概念来评估模型性能:

在本研究的图像割任务中,我们使用以下五个指标进行模型的评价:

2.1 Dice Coefficient (Dice系数)

含义:Dice系数是一个用于衡量分割结果与真实标签相似度的指标。它结合了模型的精度和召回率。

计算方式:通过计算预测结果与真实标签的交集和各自的总和来计算,数值越接近1表示模型效果越好。

Dice系数公式如下:

2.2 Intersection over Union (交并比)

含义:IoU指标用于衡量预测区域和真实区域之间的重叠程度。

计算方式:通过计算预测区域和真实区域的交集面积与它们的并集面积之比来计算,数值越接近1表示模型效果越好。

IoU指标计算公式:

2.3 Precision (查准率)

含义:查准率指标衡量了模型将正类别预测为正类别的准确性。

计算方式:通过计算真正例(TP)占所有被模型预测为正例的样本数的比例来计算,值越高表示误检率越低。

Precision公式如下:

2.4 Recall (召回率)

含义:召回率指标衡量了模型成功预测正类别样本的能力。

计算方式:通过计算真正例(TP)占所有真实正例样本的比例来计算,值越高表示漏检率越低。

召回率公式为:

3 结论

本文探讨了U-Net与注意力机制融合变体的图像分割算法。U-Net凭借其U型结构和跳跃连接,实现了高效准确的图像分割。通过引入跨融合通道注意机制(CAS-UNet)、双重注意力块(DA-Block)、卷积块注意力模块(CBAM)、注意力门(AGs)对图像特征的提取和理解能力显著增强,提升了分割的准确性和鲁棒性。未来,随着计算技术的进步和注意力机制的深入研究,U-Net与注意力机制的结合将在医学影像分析、遥感图像处理等领域发挥更大作用。

参考文献

[1]巫细波,杨再高.智慧城市理念与未来城市发展[J].城市发展研究,2010,17(11):56-60+40.

[2]闵蕾,高昆,李维,等.光学遥感图像分割技术综述[J].航天返回与遥感,2020,41(06):1-13.

[3]白石,唐攀攀,苗朝,金彩凤,赵博,万昊明.基于高分辨率遥感影像和改进U-Net模型的滑坡提取——以汶川地区为例[J].自然资源遥感,2024,36(3):96-107.

基金项目:2023年吉林省教育厅科学研究项目“基于小波变换和深度学习的低光照图像增强技术研究”(JKI20230791KJ);2024年大学生创新创业训练计划国家级项目“智慧城市背景下基于U-Net和自注意力机制的遥感图像分割算法研究”。

作者简介:阎华烨(2003—),男,河北石家庄人,本科生,研究方向为图像处理、机器学习;邵焱(2004—),男,广东广州人,本科生,研究方向为图像处理、机器学习;程贶睿(2004—)。男,福建南平人,本科生,研究方向为图像处理、机器学习;*通讯作者:蔡志丹(1979—),女,吉林廷边人,副院长,教授,研究方向为计算机代数、智能优化、图像处理。