基于PPO与STM32协同的四旋翼无人机自主避障系统设计与实现
彭芸靖 张耀丹 任柄源 余长霞 褚福银
西南财经大学天府学院 四川绵阳 621000
1、系统总体结构设计
系统采用模块化设计,分为感知层、决策层、控制层与通信层四个核心部分,整体架构如图1 所示。
图1 系统总体架构图

(注:图示应包含以下连接关系:树莓派分别连接摄像头、MPU6050、HMC5883L、北斗模块、ESP01S;树莓派通过CRTP 与STM32 连接;STM32 连接N 沟道电调与电机;安卓上位机通过 UDP 与树莓派通信)
2、关键技术实现
2.1 PPO 决策模型与树莓派部署
PPO 模型采用 CNN-LSTM 混合架构,系统通过特征提取、时序建模与决策输出三层架构实现无人机避障控制:特征提取采用 3 层卷积层(卷积核×3,步长2),将图像转换为 128 维空间特征向量;时序建模通过单层LSTM(隐藏层维度64)对位置、速度等传感器时序数据进行分析处理;最终由决策输出全连接层输出 9 维离散动作空间,对应x/y 方向±0.5m/s 的速度组合,为无人机提供避障动作指令。
目标函数采用 PPO-Clip 形式:
LCLIP(θ)= t[min(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)]其中ϵ=0.2,优势函数A_t 采用广义优势估计(GAE)计
通过采用模型压缩技术将模型量化为INT8 精度,使模型体积从23MB 大幅缩减至5.8MB;同时利用OpenMP多线程实现并行处理,让图像预处理与模型推理并行执行;此外,通过将闲置核心降频至600MHz 的功耗控制策略,平均功耗降低 32% 。
2.2 飞控算法实现
采用四元数 q=[q_0,q_1,q_2,q_3]表示无人机姿态,通过 MPU6050 与 HMC5883L 数据融合更新:加速度计与磁力计数据校正:
acalib=Ka(araw-ba) ,
mcalib=Km(mraw-bm)
姿态更新方程(基于 Madgwick 滤波):
ω为角速度,β=0.04 为增益系数,ϵ为姿态外环(角度环):输入期望角度 , ,输出角速度指令ωϕ,ωθ:
= ( − )+ ∫( − ) +
内环(角速率环):输入角速度指令,输出电机PWM 占空比:
uϕ=Kpω(ωϕ−ωϕ,raw)+Kiω∫(ωϕ−ωϕ,raw)dt其中 =8.0, =0.1, =0.5,角速率环参数为角度环的 3 倍。
2.3 传感器融合与避障逻辑
采用扩展卡尔曼滤波(EKF)融合多传感器数据,系统的状态向量、观测模型及更新频率与误差是系统的关键要素,可按要素重要程度,先阐述状态向量定义,再说明观测模型的数据融合方式,最后介绍更新频率与误差。
系统状态向量定义为 =[ , , , ];观测模型通过融合北斗定位获取的位置信息 (x,y,z) 、MPU6050采集的姿态角与角速度( , , , )以及HMC5883L 提供的偏航角( )数据实现;系统以 100Hz 的频率进行更新,
定位误差控制在±0.8m,速度误差为±0.1m/s。
PPO 模型基于视觉输入预测避障方向(占空比 70% );底层安全机制:当超声传感器检测到1m 内障碍物或MPU6050 检测到异常加速度(>5g)时,触发紧急制动(优先级最高);热力学辅助:结合温度传感器数据,当环境温度>60℃时,PPO 模型权重偏向远离高温区域。
2.4 通信协议实现
该系统采用特定的帧结构传输数据,包含头部、数据和校验和,同时不同核心端口各司其职,负责传输指令、调整参数与上传数据。以下是整合后的内容:
系统数据传输采用特定帧结构,由头部(4bit 端口+2bit 通道)、数据(0-255 字节)及校验和(1 字节)组成。核心端口应用方面,COMMANDER 端口(3 )用于传输飞行控制指令,速度指令格式为[0x03,0x01,vx,vy,vz,yaw_rate];PARAMETERS 端口(2)可动态调整 PID 参数,例如
[0 02,0 05, ℎ , ℎ , ℎ ];LOGGING 端口(5)则以 50Hz 的采样率实时上传传感器数据。UDP 数据包格式:[帧头0xAA,设备ID,数据类型,数据长度,数据体,校验和],支持功能:实时姿态显示(3D模型)、PID 参数调节、飞行日志下载。
3、结论
本研究实现了基于PPO 与STM32 协同的四旋翼无人机自主避障系统,通过“树莓派决策+STM32 控制”的架构平衡了学习能力与控制稳定性,多传感器融合与CRTP 协议的应用提升了系统的感知精度与实时性,实验验证了其在复杂环境中的有效性,该系统为无人机自主导航技术的实用化提供了重要参考。未来研究将聚焦于多机协同避障算法、模型轻量化以支持更低功耗的树莓派Zero 部署、融合红外传感器扩展夜间作业能力。
图 2 执行情况 reward

参考文献
[1]杜建华,高仲亮,舒立福森林火灾探测扑救中的无人机技术及其应用[J].
森林防火,2023(04):52-54.
[2]SchulmanJ,WolskiF,DhariwalP,etal.ProximalPolicyOptimizationAlgorithms[J].arXivpreprintarXiv:1707.06347,2 021.
[3]宋宇,翁新武,郭昕刚基于四元数EKF 算法的小型无人机姿态估计[J]吉林大学学报(理学版),2024,53(03):511-518.
项目基金:2025 年智能科技学院学生科技创新基金项目(项目编号:2025KJCX30)
作者简介:
彭芸靖(2002-),男,大学本科在读,计算机科学与技术专业学生。
张耀丹(2004-),女,大学本科在读,计算机科学与技术专业学生。
任柄源(2004-),男,大学本科在读,计算机科学与技术专业学生。
余长霞(2005-),女,大学本科在读,计算机科学与技术专业学生。
褚福银(1990-),男,计算机硕士,智能科技学院专业教师,讲师,研究方向为大数据、人工智能。