QUICK REVIEW

[論文レビュー] ShipTraj-R1: Reinforcing Ship Trajectory Prediction in Large Language Models via Group Relative Policy Optimization

Yang Zhan, Yunhao Li|arXiv (Cornell University)|Mar 3, 2026

Maritime Navigation and Safety被引用数 0

ひとこと要約

ShipTraj-R1 は、適応的なコト思考を備えた LLM を用いたテキスト-to-テキスト生成タスクとして船舶軌道予測を再定式化し、グループ相対ポリシー最適化によって強化され、実AISデータセットで最先端の精度を達成します。

ABSTRACT

Recent advancements in reinforcement fine-tuning have significantly improved the reasoning ability of large language models (LLMs). In particular, methods such as group relative policy optimization (GRPO) have demonstrated strong capabilities across various fields. However, applying LLMs to ship trajectory prediction remains largely unexplored. In this paper, we propose ShipTraj-R1, a novel LLM-based framework that reformulates ship trajectory prediction as a text-to-text generation problem. (1) We design a dynamic prompt containing trajectory information about conflicting ships to guide the model to achieve adaptive chain-of-thought (CoT) reasoning. (2) We introduce a comprehensive rule-based reward mechanism to incentivize the reasoning format and prediction accuracy of the model. (3) Our ShipTraj-R1 is reinforced through the GRPO mechanism guided by domain-specific prompts and rewards, and utilizes the Qwen3 as the model backbone. Extensive experimental results on two complex and real-world maritime datasets show that the proposed ShipTraj-R1 achieves the least error compared with state-of-the-art deep learning and LLM-based baselines.

研究の動機と目的

密集する海事環境における衝突回避のための正確な船舶軌道予測を推進する。
数値的軌道予測を CoT 推論を伴う LLM のテキスト-to-テキスト生成問題として再定式化する。
思考過程の形式と座標精度を強制するルールベースの報酬と GRPO ベースの強化微調整を導入する。
実世界の AIS データセット上で評価し、DLおよび他の LLM ベース手法と比較する。

提案手法

軌道予測を CoT 推論を明示的に組み込んだテキスト-to-テキスト生成として再定式化し、予測座標を出力する。
衝突検出として衝突する船舶の文脈と四元数船域（QSD）を含むダイナミックなプロンプトを設計する。
思考形式と座標精度を強制するルールベースの報酬関数を開発する。
報酬信号に関してポリシーを最適化するために GRPO を用いた強化微調整を適用する。
バックボーンモデルとして Qwen3-8B を使用し、RL 後処理（VLM-R1）設定で検証する。

実験結果

リサーチクエスチョン

RQ1適応的 CoT 推論を備えた LLM は、従来の DL および先行 LLM アプローチに比べて船舶軌道予測の精度と安全性を改善できるか。
RQ2衝突船文脈と GRPO によるルールベース報酬の導入は、実 AIS データ上の FDE および ADE に統計的に有意な改善をもたらすか。
RQ3観測/予測の horizon（T_obs、T_pred）および海事地域が異なる場合でもフレームワークは頑健か。
RQ4プロンプト設計と衝突検出機構は、予測精度とモデルの解釈性に有意な影響を与えるか。

主な発見

Model	Release Year-month	CSJP FDE	CSJP ADE	CFDP FDE	CFDP ADE
TBENet	2024-11	0.009827	8.1000e-04	0.005993	4.0200e-04
GeoCLSTM	2024-12	0.070173	5.4530e-03	0.064019	4.1890e-03
DBSCAN-GeoCLSTM	2024-12	0.033494	2.2640e-03	0.030183	1.4730e-03
GAT-LSTM	2024-12	0.012828	2.7260e-03	0.009032	1.0520e-03
DGCN-Transformer	2025-02	0.009216	8.2400e-04	0.006087	5.8900e-04
SeqLSTM-U-Net	2025-08	0.009907	1.4360e-03	0.007183	9.6300e-04
LMTraj-SUP	2024-03	0.004734	9.2331e-05	0.001297	5.0249e-05
LG-Traj	2025-03	0.004081	7.9923e-05	0.001004	3.7743e-05
Traj-LLM	2025-04	0.003894	4.7202e-05	0.000674	9.6587e-06
Baichuan2-7B	2023-12	0.028621	2.1598e-04	0.003834	2.8329e-05
Hunyuan-7B	2025-07	0.010099	1.5845e-04	0.003294	1.2795e-05
Llama-3-8B	2024-04	0.002671	7.0153e-05	0.000897	9.7625e-06
Qwen2.5-3B	2024-09	0.003862	4.8339e-05	0.000882	2.8602e-06
Qwen2.5-7B	2024-09	0.003255	2.9338e-05	0.000498	6.1298e-07
DeepSeek-R1	2025-05	0.002303	2.2688e-05	0.000490	6.9395e-07
Qwen3-4B	2025-07	0.002350	2.7751e-05	0.000504	7.7631e-07
Qwen3-8B	2025-07	0.002293	2.0529e-05	0.000474	6.7403e-07
ShipTraj-R1-4B	-	-	-	0.001582	1.8084e-05	0.000386	4.9705e-07
ShipTraj-R1-8B	-	-	-	0.001297	1.1547e-05	0.000311	3.8912e-07

ShipTraj-R1 は、評価した全ベースラインの中で CSJP および CFDP データセットにおける最小の FDE および ADE を達成した。
CFDP では ShipTraj-R1-8B が Traj-LLM の FDE0.000674 を 0.000311 に、ADE0.0000096587 を 0.00000038912 に低減した。
GRPO と CoT 有効プロンプトを用いた強化微調整は、SFT ベースラインおよび非 CoT バリアントを大幅に上回る。
プロンプトに衝突船文脈を含めることが性能に不可欠であり、省略すると顕著な低下が見られる。
KL 正則化項の最適値は小さな値（KL coef 約 1e-4）で、CoT を有効にすると最適な性能を発揮する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。