QUICK REVIEW

[논문 리뷰] ShipTraj-R1: Reinforcing Ship Trajectory Prediction in Large Language Models via Group Relative Policy Optimization

Yang Zhan, Yunhao Li|arXiv (Cornell University)|2026. 03. 03.

Maritime Navigation and Safety인용 수 0

한 줄 요약

ShipTraj-R1은 적응형 CoT(사고 체인)로 텍스트-투-텍스트 생성 태스크로 선박 궤적 예측을 재구성하고, 그룹 상대 정책 최적화로 강화하여 실제 AIS 데이터셋에서 최첨단 정확도를 달성합니다.

ABSTRACT

Recent advancements in reinforcement fine-tuning have significantly improved the reasoning ability of large language models (LLMs). In particular, methods such as group relative policy optimization (GRPO) have demonstrated strong capabilities across various fields. However, applying LLMs to ship trajectory prediction remains largely unexplored. In this paper, we propose ShipTraj-R1, a novel LLM-based framework that reformulates ship trajectory prediction as a text-to-text generation problem. (1) We design a dynamic prompt containing trajectory information about conflicting ships to guide the model to achieve adaptive chain-of-thought (CoT) reasoning. (2) We introduce a comprehensive rule-based reward mechanism to incentivize the reasoning format and prediction accuracy of the model. (3) Our ShipTraj-R1 is reinforced through the GRPO mechanism guided by domain-specific prompts and rewards, and utilizes the Qwen3 as the model backbone. Extensive experimental results on two complex and real-world maritime datasets show that the proposed ShipTraj-R1 achieves the least error compared with state-of-the-art deep learning and LLM-based baselines.

연구 동기 및 목표

조밀한 해양 환경에서 충돌 회피를 위한 정확한 선박 궤적 예측의 동기를 부여합니다.
수치 궤적 예측을 CoT 추론을 포함한 LLM 텍스트-투-텍스트 생성 문제로 재정의합니다.
판단 퀄리티와 좌표 정확도를 개선하기 위해 규칙 기반 보상과 GRPO 기반 강화 미세 조정을 도입합니다.
실세계 AIS 데이터 셋에서 평가하여 DL 및 다른 LLM 기반 방법과 벤치마크합니다.

제안 방법

궤적 예측을 CoT 합리화와 예측 좌표를 명시적으로 포함한 텍스트-투-텍스트 생성으로 재정의합니다.
충돌하는 선박 맥락과 QSD 기반 충돌 감지를 포함하는 동적 프롬프트를 설계합니다.
사고 형식과 좌표 정확도를 강제하기 위한 규칙 기반 보상 함수를 개발합니다.
보상 신호에 따라 정책을 최적화하기 위해 GRPO를 적용하여 강화 미세 조정을 수행합니다.
백본 모델로 Qwen3-8B를 사용하고 RL 사후 학습(VLM-R1) 설정으로 검증합니다.

실험 결과

연구 질문

RQ1적응형 CoT 추론을 갖춘 LLM이 전통적 DL 및 기존 LLM 접근법보다 선박 궤적 예측의 정밀도와 안전성을 향상시킬 수 있는가?
RQ2충돌 선박 맥락 및 규칙 기반 보상을 GRPO를 통해 도입하면 실제 AIS 데이터에서 FDE와 ADE의 통계적으로 유의한 개선을 가져오는가?
RQ3관측/예측 기간(T_obs, T_pred) 및 해양 지역 간 프레임워크의 강건성이 있는가?
RQ4프롬프트 설계 및 충돌 감지 메커니즘이 모델의 예측 정확도 및 해석 가능성에 의미있게 영향을 미치는가?

주요 결과

ShipTraj-R1은 CSJP 및 CFDP 데이터셋에서 모든 벤치마크 중에서 가장 낮은 FDE 및 ADE를 달성했다.
CFDP에서 ShipTraj-R1-8B는 Traj-LLM의 FDE 0.000674를 0.000311로, ADE를 9.6587e-06에서 3.8912e-07로 줄였다.
GRPO와 CoT 허용 프롬프트로 강화 미세 조정은 SFT 벤치마크와 비-CoT 변형보다 상당히 뛰어났다.
프롬프트에 충돌 선박 맥락을 포함하는 것이 성능에 결정적이며, 제거 시 Ablation에서 현저한 감소를 보인다.
작은 KL 정규화 항(KL coef ~1e-4) 및 CoT 활성화에서 최적 성능이 달성된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.