缩略图

高分辨率遥感影像道路智能提取系统

作者

侯新运 李超 贾程皓 谢江 刘家宏

沈阳理工大学 辽宁 沈阳 110159

(基金项目:2023年省级大学生创业创新训练计划,项目编号:s202310144027)

摘要:本文研究了一种基于DeepLabv3深度学习框架的道路识别系统,重点解决智能交通和自动驾驶领域中的道路分割问题。针对复杂道路场景下的识别需求,该系统采用改进的语义分割网络架构,通过多层次的卷积特征提取和上下文信息融合,有效提升了在各种环境条件下的道路识别能力。研究特别关注了系统对不同道路类型和复杂场景的适应性,包括城市道路、高速公路等不同路况,以及应对光照变化、天气影响等环境因素的鲁棒性表现。该道路识别系统能够区分道路区域,为后续的自动驾驶决策和路径规划提供了重要的环境感知基础,具有广泛的应用前景和实用价值。

关键词:深度学习、道路识别、图像分割

一、背景与意义

(一)项目研究背景

道路信息不仅是服务社会、公众的重要基础设施,还是综合交通运输体系的骨干部分。“十四五”规划中明确提出“加快推进交通新基建,推动新技术与交通基础设施融合发展,赋能传统交通基础设施,推动交通基础设施数字转型、智能转型,提升基础设施安全保障能力和运行效率”。无论是智慧铁路还是智慧公路,准确的获取道路信息都是发展一体化路网服务平台的基础。

高分辨率遥感影像不仅清晰地呈现道路的纹理细节特征,而且包含丰富的道路目标几何信息,这为道路目标的提取提供了充分的依据。但是高空间分辨率影像也为道路提取带来了新的问题与挑战:

1. 道路网格结构表现出越来越高的复杂性,道路类型多样化差异进一步增大,类间差异变小;

2. 几何光谱噪声干扰更加严重。主要体现在:第一,地物目标外“异物同谱”现象;第二,地物目标内的光谱混淆现象更加严重;第三,地物目标内的几何噪声增大。

相较于其他的机器学习方法,深度学习不仅可以提高道路解译的精度,同时也可以提高解译效率。

(二)国内外研究现状

随着2012年AlexNet网络的成功,深度学习算法更多应用在遥感影像的道路提取任务中。深度学习的核心是卷积神经网络(Convolution Neural Network, CNN),而CNN的主要思想是多尺度信息融合以及光谱和空间特征的联合。CNN具备一些结构性的特征包括局部感知野、权重分享以及降采样。因此,卷积层可以提取出空间几何特征及光谱特性,并将多尺度的特征进行逐层整合。Cheng和Wang提出以CasNet网络,这种网络可以同时识别到道路信息和道路中心线信息。 Buslaev和Seferbekov提出了一种改进的U型网络算法,这种算法在训练和预测中加入了修正算法。近期,Bastani和He团队提出了道路追踪算法,这种算法利用迭代CNN模型,寻找和构建路网。CNN进行道路提取任务的主要思路分为三大类:

(1) 以编码-解码为主的U型网络结构;

(2) 膨胀卷积和金字塔池化联合的网络结构;

(3) 结合上述两种方式的网络结构。

上述一些端到端的深度学习算法在道路提取任务中都有比较好的结果,但是它们很难识别出那些被遮挡的道路信息,主要原因是因为被遮挡的道路不具备明显的道路特征。因此,目前深度学习道路提取算法的上下文信息建模机制不再适用高分辨率遥感影像的道路提取任务。即使深度学习算法在特征提取方面能力较强,但是它很难识别到一些被遮挡的道路。

二、智能提取系统

(一)深度卷积神经网络

1. 卷积神经网络的原理

卷积神经网络(Convolutional Neural Network,CNN)是一种在计算机视觉领域取得了巨大成功的深度学习模型。它是一种前馈型神经网络,它的设计灵感来自于生物学中的视觉系统,旨在模拟人类视觉处理的方式。在过去的几年中,CNN已经在图像识别、目标检测、图像生成和许多其他领域取得了显著的进展,成为了计算机视觉和深度学习研究的重要组成部分。

上面是一个简单的CNN结构图,第一层输入图片,进行卷积(Convolution)操作,得到第二层深度为3的特征图(Feature Map)。对第二层的特征图进行池化(Pooling)操作,得到第三层深度为3的特征图。重复上述操作得到第五层深度为5的特征图,最后将这5个特征图,也就是5个矩阵,按行展开连接成向量,传入全连接(Fully Connected)层,全连接层就是一个BP神经网络。图中的每个特征图都可以看成是排列成矩阵形式的神经元,与BP神经网络中的神经元大同小异。

2. 卷积神经网络结构

①输入层:将每个像素作为一个特征节点输入网络,一般输入的是多维数组。

②卷积层:卷积层通过在输入数据上滑动卷积核来提取特征。卷积核的大小和步幅(stride)决定了输出特征图的尺寸。每个卷积层通常会包含多个卷积核,每个卷积核会学习到不同的特征,例如边缘、纹理等。

③激活层:通常使用非线性激活函数(如ReLU)引入非线性,帮助模型更好地学习复杂的特征。

常用激活函数:

④池化层:将卷积结果降维,对卷积后的特征图进行降维处理,得到更为显著的特征,池化层会对特征图中的数据作最大值/均值处理,在保留特征图原有的特征的基础上,减少后续运算量,并且还能够防止过拟合。常用的池化方法有:

最大池化(Max Pooling):选择池化窗口内的最大值。

平均池化(Average Pooling):计算池化窗口内的平均值。

⑤全连接层:将来自前一层的所有激活特征进行整合,使用一组可学习的权重和偏置对输入特征进行线性组合,并通过非线性激活函数(如ReLU或Softmax)引入非线性,使得网络能够学习复杂的特征关系,从而生成输出用于分类、回归或其他任务。它通常位于神经网络的末尾,负责将提取的特征映射到最终的类别或输出值。

⑥输出层: 输出层根据任务不同,可以采用不同的激活函数,如 Sigmoid 用于二分类,Softmax 用于多分类。

(二) 深度学习模型

1. DeepLabV3模型

DeepLabV3 是一种基于深度学习的图像分割模型,主要用于语义分割任务。它通过多尺度(Multiple Scales)特征提取和空洞卷积(Atrous Convolution)来有效捕捉图像中的上下文信息。

空洞卷积是一种功能强大的工具,可让我们精确控制由深度卷积神经网络计算出的特征的分辨率并调整卷积的感受野以捕获多尺度信息。考虑二维的信号,输出为y,卷积核为w,i是输入和输出上的位置,输入为 x:

另外,在DeepLabV3中提出了两种模型结构,一种是cascaded model,另一种是对DeepLabV2中所提出的ASPP model进行改进之后的模型。DeepLabv3 中的 ASPP(Atrous Spatial Pyramid Pooling,空洞空间金字塔池化) 是模型的核心模块,专门设计用于高效捕获多尺度上下文信息,从而提升模型对不同尺寸物体的分割能力。ASPP 由多个并行分支构成,每个分支通过不同参数的空洞卷积或池化操作提取不同尺度的特征,最终融合所有分支的输出。DeepLabV3的ASPP结构有五个分支,分别是1个1×1的卷积,3个不同膨胀率的3×3的空洞卷积以及一个全局平均池化层,然后会将这五个分支的输出进行拼接。其更为详细的结构如下图:

三、 道路识别系统

(一)算法设计

本系统使用了基于Pytorch的DeeplabV3语义分割算法进行道路识别,主要包含数据加载、模型构建、训练验证和结果保存四个模块。系统首先通过配置文件初始化训练参数,自动检测并选择CPU/GPU设备,构建DeepLabv3网络并支持预训练权重加载;然后使用自定义数据加载器读取训练集和验证集,采用多线程和内存锁定技术优化数据加载效率;在训练阶段使用SGD优化器和带类别权重的交叉熵损失函数进行模型优化,通过tqdm进度条实时监控训练过程,并在验证阶段计算IoU指标评估模型性能;最后系统会保存最佳模型参数,并绘制损失曲线和IoU变化曲线。

在预测部分,主要完成从图像加载、预处理到模型推理和结果可视化的完整流程。系统首先加载配置文件获取模型参数和预测设置,自动选择GPU或CPU作为计算设备,并初始化预训练好的DeepLabv3模型;接着对输入图像进行包括尺寸调整、归一化和维度转换在内的标准化预处理,将处理后的张量输入模型进行前向计算,通过softmax和argmax操作得到每个像素的类别预测;最后将分割结果转换为彩色掩码图像,使用预设颜色标注不同语义类别,并通过alpha混合方式将分割结果叠加在原图上直观展示。整个流程采用模块化设计,包含完整的图像处理链和规范的模型推理步骤,既可用于单张图像的测试验证,也为集成到更复杂的视觉系统中提供了基础框架,通过扩展可支持视频流处理、批量预测等更丰富的应用场景。

(二)系统功能

本系统在使用了QT来进行页面设计,并使用了MySql数据库进行后台的账户数据存储,来让用户进入页面使用道路检测功能。

进入系统后,首先进行账号注册/登录操作,系统将用户数据输入后台数据库,便可以进入系统,在数据分析板块对输入图片进行检测,可以得到以下结果:

后台数据库中记录登录人员的信息和操作历史:

四、 总结与展望

(一)总结

本文设计并实现了一种基于DeepLabv3深度学习模型的道路识别系统,旨在解决自动驾驶和智能交通领域中道路分割的关键问题。该系统利用了DeepLabv3强大的语义分割能力,通过引入空洞卷积和空洞空间金字塔池化(ASPP)模块,有效捕捉图像中的多尺度特征,从而在不同复杂度的道路场景中实现精确识别。在模型训练阶段,研究采用了公开的道路数据集(如Cityscapes和KITTI)进行实验,通过调整网络结构和优化损失函数,进一步提升了模型在边缘细节和小目标分割上的表现。实验结果表明,该系统在多个评估指标(如mIoU和像素精度)上均优于传统方法,同时保持了较快的推理速度,能够满足实际应用中的实时性需求。

同时,当前来看,对于 DeeplabV3来说,其精确性相较于市面上出现的很多更加强大的算法来说,是较差的,在DeeplabV3之后很快推出了其Plus版本,后者在算法中的Encoder、Decoder部分都有改变,显著提升小目标和边缘分割的准确性。

总体而言,本研究验证了DeepLabv3在道路识别任务中的有效性,为未来智能交通系统的开发提供了可靠的技术支持,同时也为相关领域的进一步研究奠定了基础。

(二)展望

未来,基于DeepLabv3的道路识别系统仍有较大的优化空间和发展潜力。首先,可以进一步探索更高效的网络结构设计,例如结合Transformer等新型注意力机制,以增强模型对长距离依赖关系的建模能力,从而在复杂道路场景中实现更精细的分割效果。其次,针对不同天气条件(如雨雪、雾霾)和特殊道路环境(如夜间、施工区域),可以引入更多样化的训练数据或采用数据增强技术,以提高模型的泛化能力和鲁棒性。此外,模型的轻量化与加速仍是一个重要研究方向,未来可通过知识蒸馏、量化压缩或硬件适配等方法,进一步提升系统的实时性能,使其更适合车载或边缘计算设备的部署。最后,随着自动驾驶技术的普及,道路识别系统还可以与高精地图、路径规划等模块深度集成,形成更完整的智能驾驶解决方案。这些方向的研究将推动道路识别技术向更高精度、更强适应性和更广泛的应用场景发展。

参考文献:

[1] 刘洋, 陈晓, 周峰. 融合注意力机制与多特征的高分辨率遥感影像道路分割[J]. 遥感技术与应用, 2022, 37(2): 245-256

[2] 李昊. 基于DeepLabv3的遥感影像道路分割算法优化研究[D]. 北京: 北京大学, 2022:1-9