Skip to main content
QUICK REVIEW

[논문 리뷰] Language Conditioned Traffic Generation

Shuhan Tan, Boris Ivanovic|arXiv (Cornell University)|2023. 07. 16.
Autonomous Vehicle Technology and Safety인용 수 9
한 줄 요약

LCTGen은 GPT-4 기반 해석기, 지도 검색 모듈, 질의 기반 트랜스포머 생성기를 이용해 자연어 설명에서 현실적인 교통 시나리오를 생성하는 언어 조건화 교통 생성 모델로, 현실성과 제어 가능성 측면에서 이전 방법들을 능가합니다.

ABSTRACT

Simulation forms the backbone of modern self-driving development. Simulators help develop, test, and improve driving systems without putting humans, vehicles, or their environment at risk. However, simulators face a major challenge: They rely on realistic, scalable, yet interesting content. While recent advances in rendering and scene reconstruction make great strides in creating static scene assets, modeling their layout, dynamics, and behaviors remains challenging. In this work, we turn to language as a source of supervision for dynamic traffic scene generation. Our model, LCTGen, combines a large language model with a transformer-based decoder architecture that selects likely map locations from a dataset of maps, and produces an initial traffic distribution, as well as the dynamics of each vehicle. LCTGen outperforms prior work in both unconditional and conditional traffic scene generation in terms of realism and fidelity. Code and video will be available at https://ariostgx.github.io/lctgen.

연구 동기 및 목표

  • 자연어로 제어될 수 있는 현실적이고 확장 가능한 교통 시나리오 생성의 동기를 부여합니다.
  • 언어-교통 페어링 데이터 없이도 사용자 설명과 정렬된 교통 초기 상태 및 동역학 생성을 가능하게 합니다.
  • 언어 모델을 활용해 간결한 구조화 표현을 도출하고 적합한 맵을 검색합니다.
  • 맵과 구조화된 설명을 전체 교통 궤적으로 컴파일하는 엔드 투 엔드 생성기를 개발합니다.
  • 지시적 편집 및 제어 가능한 정책 평가에의 적용 가능성을 시연합니다.

제안 방법

  • 인터프리터는 GPT-4를 사용한 인-컨텍스트 학습과 chain-of-thought 프롬팅으로 자연어 입력을 간결한 구조화 표현 z로 변환합니다.
  • 검색은 구조화 표현 z와 대상 시나리오에 가장 잘 부합하는 현실 맵 데이터셋의 맵 영역을 샘플링합니다.
  • 생성기는 맵 특징과 에이전트 질의를 입력으로 받아 단일 순전파에서 에이전트 간/에이전트-맵 상호작용을 공동으로 모델링하는 질의 기반 트랜스포머입니다.
  • 장면 디코딩은 에이전트를 맵 차선 구간에 배치하고 가우시안 혼합 모델과 다수의 미래 궤적을 통해 에이전트 속성 및 움직임을 예측합니다.
  • 인코더/트레이닝 파이프라인은 씬을 구조화된 표현으로 번역하고 생성기를 엔드투엔드로 학습시켜 시나리오 전용 주행 데이터로부터 실제 세계의 시나리오를 재구성하는 법을 배웁니다.
  • 해당 아키텍처는 주어진 언어 입력과 맵에 대해 다중 씬 샘플링을 지원하여 확률적 특성과 확장성을 가능하게 합니다.

실험 결과

연구 질문

  • RQ1자연어 설명을 사용하여 현실적인 교통 장면을 제어 가능하게 생성할 수 있는가?
  • RQ2언어-교통 페어링 데이터 없이 LLM 기반 인터프리터가 언어와 장면 표현을 어떻게 연결할 수 있는가?
  • RQ3질의 기반 트랜스포머 생성기가 다수의 에이전트와 맵 간의 상호작용을 효과적으로 모델링하여 일관된 궤적을 생성하는가?
  • RQ4LCTGen을 지시적 교통 시나리오 편집 및 제어 가능한 정책 평가에 사용할 수 있는가?

주요 결과

  • LCTGen은 무조건적·언어 조건화 교통 생성에서 이전 연구보다 우수한 현실성 및 제어 가능성을 달성합니다.
  • 언어 조건화는 위치, 방향, 속도에 대한 속성 정확도를 베이스라인에 비해 현저히 향상시킵니다.
  • 언어 조건화를 사용할 때 mADE와 mFDE를 통한 모션 품질이 베이스라인보다 현저히 높습니다.
  • 무조건적 버전(z 없음)도 많은 지표에서 강력한 사전 모델(TrafficGen)을 능가하여 엔드투엔드 트랜스포머 설계의 유효성을 입증합니다.
  • 사람 연구에서 LCTGen이 충돌 보고 및 속성 설명에 대해 베이스라인보다 텍스트 설명과 더 잘 일치하는 것으로 나타났습니다.
  • 모델은 지시적 편집을 지원하며 제어 가능한 정책 평가에 사용할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.