基于YOLO11的无人机车辆识别研究

1 引言

随着城市智能交通体系的逐步完善，交通环境日益复杂，对城市监控系统的空间覆盖率与动态适应能力提出了更高要求。传统固定摄像头在大范围、高动态环境下存在布控受限、视角固定与目标遮挡等问题，难以满足高精度、实时性的交通感知要求。

无人机具有灵活部署、高空俯瞰与广域感知的优点，是城市交通监测的重要补充。深度学习方法，尤其是基于卷积神经网络目标检测技术[1]，已成为当前计算机视觉研究的主流，但无人机的小目标密集、视角偏差大、背景复杂与遮挡等问题[2]。对现有目标检测算法有更高的要求。

本文基于 YOLO11，提出面向无人机俯视视角下的车辆识别算法，提出优化方案，旨在提高模型在复杂空中视角条件下的泛化能力与感知精度。

2 基于深度学习的目标检测算法

目标检测算法可分为两类：两阶段算法，如 Faster R-CNN[3]；单阶段算法，以 YOLO[4]系列为代表。两阶段方法拥有较高的检测精度，但计算量较大，不利于在算力资源有限的无人机平台实时应用。单阶段算法凭借其快速、高效的计算特性更适合部署于计算资源有限且实时性要求高的无人机平台。

YOLO 系列算法是当前最具代表性的单阶段检测框架之一。其采用端到端的网络结构，将候选区域生成与分类、回归任务在一个神经网络中完成，实现了高速且高效的目标检测。

3 基于YOLO11 的无人机车辆识别方法

YOLO11 通过引入先进的注意力机制、自适应特征融合模块以及多尺度预测分支，有效提升了对小目标和复杂背景的识别能力[5]。

3.1 数据集构建与预处理

本研究使用大疆mavic3无人机实地航拍的视频数据进行处理得到无人机车辆数据集，主要场景为城市高架桥、城市快速路、高速公路。采用LabelImg 工具进行数据标注，将车辆类别分为小汽车、小货车、大货车。

为了提高训练数据的一致性与模型的训练稳定性，采用以下基本预处理操作：

（1）尺寸归一化：所有输入图像统一为 640×640 分辨率，以适配Yolo11的输入要求；

（2）像素值归一化：将图像像素值从[0，255]归一化至[0，1]范围，加快模型收敛速度；

（3）格式转换：将标注数据转换为 YOLO 格式，格式为类别编号与标准化的中心坐标与宽高，以便于模型读取；

（4）划分数据集：将数据集按8：1：1 划分为训练集、验证集和测试集，确保训练与评估的公正性。

3.2 YOLO11 模型改进策略针对无人机视角的特殊性，对模型进行了以下改进：

（1）特征提取增强：在主干网络中引入 Swish 激活函数和 ECA 注意力模块，提升对弱目标的特征提取能力；（2）检测头优化：采用三层特征金字塔结构联合预测，从而加强不同尺度车辆的检测效果；（3）锚框重设计：根据无人机图像中车辆尺寸统计结果，重新聚类生成自适应锚框，提高检测精度；（4）损失函数改进：将 CIOU 损失函数替换为 SIoU 损失函数，更好的反映边界框几何距离和方向误差；（5）部署优化：通过 TensorRT 进行模型量化压缩与加速，确保在边缘计算设备上实时运行。

3.3 模型训练与优化

采用迁移学习策略，利用COCO 数据集上预训练的Yolo11 权重作为初始化，并在自建无人机车辆数据集上进行微调。训练过程中设置初始学习率为0.01，使用余弦退火调度策略，并加入Early Stopping 机制防止过拟合。在训练后期，使用伪标签方法对未标注数据进一步优化模型性能。

4 结论

本文面向无人机俯视图像中车辆检测任务，构建了一种基于 YOLO11模型的适配性优化方案。通过对其网络结构、检测头与边界框回归机制进行系统性重构，显著提升了模型对小尺度目标及密集遮挡环境的感知能力。所提出方法在理论层面对YOLO 系列检测器在尺度建模、上下文理解与损失函数方向建模方面进行了扩展与优化，使得该模型在复杂图像分布下的表现更具鲁棒性。未来可进一步考虑引入时间序列建模模块，融合多帧信息以实现车辆行为的动态识别与预测，从而推动无人机平台下更高层次交通感知系统的构建。

参考文献

[1]石叶楠，郑国磊.三种用于加工特征识别的神经网络方法综述[J].航空学报，2019，40（9）：182-198.

[2]江波，屈若锟，李彦冬，等.基于深度学习的无人机航拍目标检测研究综述[J].航空学报，2021，42（04）：137-151.

[3]Girshick， R. （2015） Fast R-CNN. 2015 IEEE International Conference on Computer Vision （ICCV）， Santiago， 7-13 December 2015， 1440-1448.

[4]Redmon J， Divvala S， Girshick R， et al. You only look once： Unified， real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016： 779-788.

[5]Khanam R， Hussain M. YoLov11： An overview of the key architectural enhancements[J]. arXiv preprint arXiv：2410.17725， 2024.