[논문 리뷰] Language-Driven Interactive Traffic Trajectory Generation
InteractTraj는 언어를 코드로 변환하는 인코더와 코드에서 궤도를 생성하는 디코더를 도입하여 자연어 설명으로부터 인터랙티브한 교통 궤도를 생성하고, 차량 상호 작용을 모델링하여 WOMD와 nuPlan에서 최첨단 현실감을 달성한다.
Realistic trajectory generation with natural language control is pivotal for advancing autonomous vehicle technology. However, previous methods focus on individual traffic participant trajectory generation, thus failing to account for the complexity of interactive traffic dynamics. In this work, we propose InteractTraj, the first language-driven traffic trajectory generator that can generate interactive traffic trajectories. InteractTraj interprets abstract trajectory descriptions into concrete formatted interaction-aware numerical codes and learns a mapping between these formatted codes and the final interactive trajectories. To interpret language descriptions, we propose a language-to-code encoder with a novel interaction-aware encoding strategy. To produce interactive traffic trajectories, we propose a code-to-trajectory decoder with interaction-aware feature aggregation that synergizes vehicle interactions with the environmental map and the vehicle moves. Extensive experiments show our method demonstrates superior performance over previous SoTA methods, offering a more realistic generation of interactive traffic trajectories with high controllability via diverse natural language commands. Our code is available at https://github.com/X1a-jk/InteractTraj.git
연구 동기 및 목표
- 언어 입력으로 현실적이고 제어 가능한 교통 궤도 생성을 촉진한다.
- 추상적인 언어 설명을 구체적인 상호작용 인식 표현으로 연결한다.
- 상호작용 인식 코딩 및 집계를 활용해 일관된 다중 차량 궤를 생성한다.
- 실세계 벤치마크(WOMD, nuPlan)에서 최첨단 기준과 비교 평가한다.
제안 방법
- 언어-코드 인코더와 코드-궤도 디코더의 이중 모듈 아키텍처를 갖는 InteractTraj를 제안한다.
- 언어를 인터랙션 코드, 차량 코드, 맵 코드의 세 종류의 인터랙션 인식 수치 코드로 인코딩한다.
- GPT-4용 프롬프트를 사용해 상대 위치, 거리, 차량 상태 및 맵 특징을 포착하는 코드를 생성한다.
- 맵, 차량 및 인터랙션 정보를 융합하는 두 단계의 인터랙션 인식 특징 집계를 통해 코드를 궤도로 디코딩한다.
- 추출된 코드에서 실제 궤도를 재구성하고 궤도 손실 및 상대 거리 손실을 최소화하는 방식으로 학습한다.
실험 결과
연구 질문
- RQ1자연어 명령을 다중 차량 역학을 반영하는 인터랙션 인식 코드로 변환할 수 있는가?
- RQ2코드-궤도 디코더가 이 코드들을 활용해 현실적이고 인터랙티브한 교통 궤도를 생성할 수 있는가?
- RQ3언어 조건화 인터랙티브 궤도가 현실성 및 제어 가능성 면에서 선행 언어 기반 또는 비인터랙티브 기준선보다 우수한가?
- RQ4상호작용 코드 및 집계 전략이 생성 품질에 기여하는 바는 무엇인가?
주요 결과
| 데이터셋 | 방법 | mADE ↓ | minADE ↓ | mFDE ↓ | minFDE ↓ | SCR ↓ | HD ↓ |
|---|---|---|---|---|---|---|---|
| WOMD | TrafficGen | 9.531 | 1.440 | 20.106 | 3.690 | 0.086 | 5.733 |
| WOMD | LCTGen | 1.262 | 0.224 | 2.696 | 0.463 | 0.072 | 1.295 |
| WOMD | InteractTraj(w/o I) | 1.205 | 0.207 | 2.479 | 0.346 | 0.090 | 1.210 |
| WOMD | InteractTraj | 1.067 | 0.181 | 2.190 | 0.320 | 0.070 | 1.076 |
| nuPlan | TrafficGen | 9.418 | 1.416 | 19.686 | 3.627 | 0.082 | 5.874 |
| nuPlan | LCTGen | 1.161 | 0.218 | 2.497 | 0.448 | 0.074 | 1.301 |
| nuPlan | InteractTraj(w/o I) | 1.108 | 0.181 | 2.277 | 0.323 | 0.070 | 1.150 |
| nuPlan | InteractTraj | 0.962 | 0.160 | 1.987 | 0.321 | 0.067 | 1.129 |
- InteractTraj는 WOMD와 nuPlan에서 SoTA 현실감을 달성하였으며, baselines에 비해 오차를 감소시켰다.
- WOMD에서 InteractTraj는 mADE 1.067, minADE 0.181, mFDE 2.190, minFDE 0.320, SCR 0.070, HD 1.076를 달성한다.
- nuPlan에서 InteractTraj는 mADE 0.962, minADE 0.160, mFDE 1.987, minFDE 0.321, SCR 0.067, HD 1.129를 달성한다.
- 인터랙션 코드가 없는 제거형 버전은 성능이 더 떨어져, 인터랙션 인식 입력의 효과를 확인시켜준다.
- 사용자 연구에서 상호작용 유형 전반에 걸쳐 LCTGen보다 InteractTraj 생성 시나리오에 대한 선호도가 더 높게 나타났다.
- 응용 구성 요소와 이산화 선택 전체에서 이점이 나타난다는 점을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.