Skip to main content
QUICK REVIEW

[论文解读] ShipTraj-R1: Reinforcing Ship Trajectory Prediction in Large Language Models via Group Relative Policy Optimization

Yang Zhan, Yunhao Li|arXiv (Cornell University)|Mar 3, 2026
Maritime Navigation and Safety被引用 0
一句话总结

ShipTraj-R1 将船舶轨迹预测重新表述为文本到文本生成任务,使用具自适应链路推理的 LLM,并通过群体相对策略优化强化,以在真实 AIS 数据集上实现最优精度。

ABSTRACT

Recent advancements in reinforcement fine-tuning have significantly improved the reasoning ability of large language models (LLMs). In particular, methods such as group relative policy optimization (GRPO) have demonstrated strong capabilities across various fields. However, applying LLMs to ship trajectory prediction remains largely unexplored. In this paper, we propose ShipTraj-R1, a novel LLM-based framework that reformulates ship trajectory prediction as a text-to-text generation problem. (1) We design a dynamic prompt containing trajectory information about conflicting ships to guide the model to achieve adaptive chain-of-thought (CoT) reasoning. (2) We introduce a comprehensive rule-based reward mechanism to incentivize the reasoning format and prediction accuracy of the model. (3) Our ShipTraj-R1 is reinforced through the GRPO mechanism guided by domain-specific prompts and rewards, and utilizes the Qwen3 as the model backbone. Extensive experimental results on two complex and real-world maritime datasets show that the proposed ShipTraj-R1 achieves the least error compared with state-of-the-art deep learning and LLM-based baselines.

研究动机与目标

  • 在密集海事环境中推动准确的船舶轨迹预测以实现避免碰撞。
  • 将数值轨迹预测重新表述为带有链路推理的 LLM 文本到文本生成问题。
  • 引入基于规则的奖励和基于 GRPO 的强化微调以提升推理质量和坐标准确性。
  • 在真实 AIS 数据集上进行评估,以与深度学习及其他基于 LLM 的方法进行基准对比。

提出的方法

  • 将轨迹预测重新表述为带有显性链路推理的文本到文本生成,并给出预测坐标。
  • 设计一个动态提示,包含冲突船舶上下文与基于四元数舰船领域(QSD)的冲突检测。
  • 开发一个基于规则的奖励函数,以强制思维格式和坐标准确性。
  • 应用 GRPO 进行强化微调,以使策略相对于奖励信号进行优化。
  • 以 Qwen3-8B 作为骨干模型,并通过强化学习后训练(VLM-R1)设置进行验证。

实验结果

研究问题

  • RQ1带自适应链路推理的 LLM 是否能在船舶轨迹预测中提升精度和安全性,相较于传统 DL 和先前的 LLM 方法?
  • RQ2结合冲突船舶上下文与基于规则的奖励通过 GRPO 是否在真实 AIS 数据上对 FDE 和 ADE 带来统计显著的提升?
  • RQ3该框架在不同观测/预测时域(T_obs、T_pred)和海事区域中是否具鲁棒性?
  • RQ4提示设计与冲突检测机制是否对预测准确性和模型可解释性有显著影响?

主要发现

  • ShipTraj-R1 在 CSJP 和 CFDP 数据集上实现了所有基线中最低的 FDE 和 ADE。
  • 在 CFDP 上,ShipTraj-R1-8B 将 FDE 从 Traj-LLM 的 0.000674 降至 0.000311,将 ADE 从 9.6587e-06 降至 3.8912e-07。
  • 结合 GRPO 的强化微调以及具链路推理的提示显著优于 SFT 基线与非链路推理变体。
  • 在提示中加入冲突船舶上下文对性能至关重要,消融实验显示若省略会有显著下降。
  • 在较小的 KL 正则化项(KL 系数约为 1e-4)且启用链路推理时,达到最优性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。