基于 MADDPG 的多无人艇协同舰炮打击应用研究
冯鑫鑫
江苏自动化研究所 江苏连云港 222061
1. 应用场景
本应用基于多智能体深度确定性策略梯度(MADDPG)算法,实现多艘无人艇对海面目标的协同舰炮打击。系统要求无人艇具备自主决策与火力协调能力,应对静止、移动及集群目标等复杂情况。所有无人艇配置相同的舰炮系统,具备完全自主决策能力,可独立完成打击任务。上级指挥中心负责全局目标编号和态势融合,支持训练阶段的策略学习,同时不参与部署时的实时决策。面对不同类型目标,无人艇需采取不同策略:静止目标关注机动路径与火力覆盖;移动目标需预测轨迹并持续跟踪;集群目标则需识别个体、评估威胁并制定协同打击方案。目标多样性对 MADDPG 的状态空间设计、动作表示与奖励机制提出更高要求。无人艇之间无信息共享,仅依靠本地观测和有限的全局目标信息进行判断。这种设计降低通信负担,但对算法的协同能力和鲁棒性提出了更高挑战。系统核心需求包括:动态目标分配、火力协调、避免资源浪费、提升整体打击效能。这些要求直接影响 MADDPG 算法的设计重点。 本应用采用“集中式训练、分布式执行”(CTDE)模式,同步创建 Critic-Actor 网络。训练阶段,Critic 网络利用全局信息优化策略更新;部署阶段,各艇仅凭本地观测做出决策。该模式兼顾训练效率与部署可行性,要求 Actor 网络在无全局打击信息的情况下仍能输出高质量动作。
2. 算法原理
多智能体深度确定性策略梯度(MADDPG)是一种适用于多智能体系统的强化学习算法,继承并扩展了DDPG 算法。其核心思想是“集中式训练,分布式执行”(CTDE)。在训练阶段,每个智能体(无人艇)拥有一个 Actor 网络和一个 Critic 网络:Actor 负责根据局部观测选择动作,如打击目标;Critic 则评估该动作的价值,Critic 可访问所有智能体的状态和动作信息,从而获得更准确的联合动作价值估计,提升策略学习效果。而在部署阶段,各智能体仅依赖本地观测进行自主决策,无需通信。
MADDPG 采用了 Actor-Critic 结构,并引入经验回放与目标网络机制以提高训练稳定性。Critic 通过全局信息计算目标 Q 值(衡量在特定状态下采取行动的好坏程度),指导 Actor 优化策略;Actor 则沿最大化 Q 值方向更新策略参数。此外,部分改进方法如 V 型概率抽样机制被用于提升样本效率和收敛速度。
该算法特别适合本应用场景中无人艇需在无互相通信条件下实现高效协同作战的需求,在保证训练质量的同时实现了分布式的自主决策能力。
3. MADDPG 在无人艇协同中的应用潜力
MADDPG 在多无人艇协同打击任务中具有显著优势。其核心在于能够通过全局信息辅助训练,有效解决局部观测下的协同难题,使无人艇学会合理分配目标、协同集火高价值目标、避免重复打击等策略。同时,MADDPG 的“分布式执行”机制契合无人艇自主作战需求。部署时,各艇仅凭本地观测和少量全局信息即可独立决策,无需实时通信或中心控制,提升了系统鲁棒性与响应速度。这为复杂海上环境下高效、自主的协同打击提供了有力支撑。
4. 协同打击策略与战术设计
围绕基于 MADDPG 的多无人艇协同打击策略,重点包括目标分配、火力协调与奖励函数设计。目标分配策略采用强化学习自动学习,输入包含所有目标和无人艇的状态信息,输出为本艇打击目标。通过威胁评估划分优先级,引导智能体优先打击高威胁目标,并在训练中通过奖励机制促使多艇自发协同集火;对低威胁目标则鼓励分散打击,提升资源利用效率。火力协调依赖于算法隐式学习与奖励设计。通过惩罚重复打击已消灭目标、引入动态火力选择机制,减少资源浪费,实现无通信下的隐式协调。奖励函数设计是策略学习的核心,融合全局与局部奖励,综合考虑目标威胁度、距离、命中概率等因素,并设置冲突惩罚与协同奖励机制,引导无人艇在个体行为与团队协作之间取得最优平衡。整体策略设计使无人艇能在复杂海上环境中实现高效、自主、协同的打击任务。
5. MADDPG 模型构建与实现
状态空间设计 : 每艘无人艇的状态输入包括本地观测和全局信息。本地观测包含自身位置、航向、传感器探测到的目标信息;全局打击信息(仅训练使用)及涵盖所有目标状态(位置、速度、威胁等级)和其他无人艇位置。此外,加入“身份标识”以区分不同智能体。Critic 网络在训练时接收完整全局状态,而 Actor 网络部署时仅依赖本地观测,确保分布式执行的可行性。为应对目标数量变化,可采用注意力机制处理可变长度输入。
动作空间设计:动作空间定义为离散选择,表示“打击哪个目标”,其中 0 代表不攻击。输出层采用 Softmax 生成概率分布,通过采样或最大值选取确定动作。开火时机隐含于目标选择中,通过奖励函数引导最佳射击时机。
Actor-Critic 框架网络:每个无人艇拥有独立的 Actor 和 Critic 网络,其中 Actor 网络根据本地观测输出目标选择策略;Critic 网络利用全局状态和联合动作评估Q 值,指导Actor 更新策略。
训练策略:采用以下技术提升训练稳定性与效率,一是经验回放:存储历史经验并随机采样,打破数据相关性,提高样本利用率;二是目标网络:通过软更新机制稳定Q 值学习过程;三是解耦机制:为各智能体配置独立经验池或局部 Critic,降低策略耦合度,提升训练收敛性。综上,该模型设计兼顾了集中式训练与分布式执行的需求,结合注意力机制与高效训练策略,为多无人艇协同打击提供了有效的算法支撑。
6. 总结与展望
本应用研究基于 MADDPG 算法,构建了多无人艇协同舰炮打击策略。采用“集中式训练、分布式执行”框架,使每艘无人艇在仅依赖本地观测信息的情况下,自主选择打击目标。Critic 网络在训练时利用全局信息优化策略学习,Actor 网络则在部署时独立决策。奖励函数是协同行为学习的关键,综合考虑目标威胁度、距离等因素,并引入多尺度奖励、冲突惩罚和协同奖励机制,引导智能体实现动态目标分配、火力协调。状态空间和动作空间设计贴合任务需求,结合Actor-Critic 结构及注意力机制,提升了模型表现力和协同效率。
未来可从以下几个方面进行优化,一是可以通过进一步精细化奖励函数设计,融入战略价值、生存概率及复杂战术行为奖励,探索课程学习机制逐步提升任务难度;二是引入 Transformer、图神经网络等网络结构,增强对复杂交互关系的建模能力;探索分层强化学习架构,分离高层策略与底层控制;三是改进经验回放机制训练策略,优化探索策略,尝试元学习以提升策略泛化能力;四是构建更逼真的海战场仿真平台,完善评估体系,涵盖打击效率、战术运用、资源消耗与系统鲁棒性等多维度指标。
总体而言,当前应用方案为多无人艇协同作战提供了有效方法基础,后续研究将持续推动其智能化、适应性与实战化水平的提升。
参考文献
[1]. 王涵, 俞扬, 姜远. 基于通信的多智能体强化学习进展综述[J].中国科学 : 信息科学 , 2022, 52(5): 742–764.
[2]. 张钰欣 , 赵恩娇 , 赵玉新 . 规则耦合下的多异构子网络MADDPG 博弈对抗算法 [J]. 智能系统学报 , 2024, 19(1): 190–208.
作者简介:冯鑫鑫(1995-)汉族,硕士,助理工程师。