[논문 리뷰] TrajGPT-R: Generating Urban Mobility Trajectory with Reinforcement Learning-Enhanced Generative Pre-trained Transformer
TrajGPT-R은 도시 궤적 생성을 위해 Transformer를 사전 학습하고 역강화학습(IRL)에 의해 보상모델로 안내받아 생성된 도시 모빌리티 궤적의 신뢰성 및 다양성을 개선하는 두 단계 프레임워크를 사용한다.
Mobility trajectories are essential for understanding urban dynamics and enhancing urban planning, yet access to such data is frequently hindered by privacy concerns. This research introduces a transformative framework for generating large-scale urban mobility trajectories, employing a novel application of a transformer-based model pre-trained and fine-tuned through a two-phase process. Initially, trajectory generation is conceptualized as an offline reinforcement learning (RL) problem, with a significant reduction in vocabulary space achieved during tokenization. The integration of Inverse Reinforcement Learning (IRL) allows for the capture of trajectory-wise reward signals, leveraging historical data to infer individual mobility preferences. Subsequently, the pre-trained model is fine-tuned using the constructed reward model, effectively addressing the challenges inherent in traditional RL-based autoregressive methods, such as long-term credit assignment and handling of sparse reward environments. Comprehensive evaluations on multiple datasets illustrate that our framework markedly surpasses existing models in terms of reliability and diversity. Our findings not only advance the field of urban mobility modeling but also provide a robust methodology for simulating urban data, with significant implications for traffic management and urban development planning. The implementation is publicly available at https://github.com/Wangjw6/TrajGPT_R.
연구 동기 및 목표
- 실제 도시 역학을 닮은 대규모 도시 모빌리티 궤적을 생성하여 프라이버시 제약을 해결한다.
- 오프라인으로 사전 학습된 Transformer 기반 모델을 이용해 궤적 생성을 순차 의사결정 문제로 학습한다.
- 궤적별 선호를 포착하고 미세 조정으로 안내하기 위해 기본값 추정기(Basic Value Estimator)와 선호 가치 추정기(Preference Value Estimator)로 구성된 역강화학습 기반 보상 모델을 도입한다.
- 프리트레인된 모델을 보상 모델 안내 목적의 미세조정으로, 정책 그래디언트 신호(GAE)와 감독 손실을 결합한 목표를 사용하고, 보상 가중치를 작게 설정하여 보수적 업데이트를 수행한다.
- 다양한 대규모 도시 모빌리티 데이터셋에서 접근법을 검증하고 baselines 대비 우수한 성능을 보여준다.
제안 방법
- Transformer 기반 자기회귀 프레임워크를 사용하여 도시 궤적 생성을 일련의 의사결정 문제로 모델링한다.
- 궤적을 상태, 행동, 반환-가고 토큰으로 표현하고 오프라인 RL을 교차 엔트로피 손실로 학습한다.
- 궤적-별 보상 모델을 역강화학습과 Basic Value Estimator 및 Preference Value Estimator로 구성하여 일반적 선호도와 개인 선호도를 포착한다.
- 사전 학습된 모델을 보상 모델 안내 목표로 미세 조정하고 정책 그래디언트 신호(GAE)와 감독 손실을 결합한 목표를 사용하며 보상 가중치를 작은 값으로 설정해 보수적 업데이트를 수행한다.
- Toyota, T-Drive, Porto Taxi 데이터셋에서 신뢰성 및 다양성 지표로 평가하여 향상된 성능을 보인다.

실험 결과
연구 질문
- RQ1트랜스포머 기반 모델이 프라이버시를 보존하면서 다양하고 신뢰할 수 있는 도시 모빌리티 궤적을 생성할 수 있는가?
- RQ2IRL 기반 보상 모델 및 RMFT를 도입하는 것이 오프라인 RL만 사용할 때보다 궤적 생성 품질을 개선하는가?
- RQ3TrajGPT-R은 서로 다른 도시 맥락과 데이터셋에서 얼마나 잘 일반화되는가?
주요 결과
| 방법 | Jac(↑) | Cos(↑) | BLEU(↑) | L-JSD(↓) | C-JSD(↓) | UE(↑) | BE(↑) |
|---|---|---|---|---|---|---|---|
| TrajGPT-R | 0.524 | 0.575 | 0.383 | 0.016 | 0.042 | 14.85 | 14.82 |
| TrajGPT-R (Toyota) | 0.635 | 0.570 | 0.345 | 0.005 | 0.013 | 8.57 | 10.22 |
| TrajGPT-R (Porto) | 0.522 | 0.470 | 0.432 | 0.013 | 0.032 | 10.13 | 10.75 |
- TrajGPT-R은 Toyota, T-Drive, Porto Taxi 데이터셋에서 기준선보다 더 높은 신뢰도와 다양성을 달성한다.
- Toyota에서 Jac 0.524, Cos 0.575, BLEU 0.383, L-JSD 0.016, C-JSD 0.042, UE 14.85, BE 14.82를 달성한다.
- T-Drive에서 Jac 0.635, Cos 0.570, BLEU 0.345, L-JSD 0.005, C-JSD 0.013, UE 8.57, BE 10.22를 달성한다.
- Porto에서 Jac 0.522, Cos 0.470, BLEU 0.432, L-JSD 0.013, C-JSD 0.032, UE 10.13, BE 10.75를 달성한다.
- 미세 조정과 RMFT 및 명시적 보상 모델링은 희박한 영역에서의 장기 궤적 생성과 강건성을 크게 향상시킨다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.