QUICK REVIEW

[논문 리뷰] Trajectory Forecasts in Unknown Environments Conditioned on Grid-Based Plans

Nachiket Deo, Mohan M. Trivedi|arXiv (Cornell University)|2020. 01. 03.

Autonomous Vehicle Technology and Safety참고 문헌 47인용 수 114

한 줄 요약

P2T는 그리드 기반 계획을 MaxEnt IRL로 추론하고 그 계획에 조건화된 주의 기반 디코더로 연속 궤적을 생성하여 미지의 환경에서 다중모드 보행자 및 차량의 궤적을 예측하는 Plans-to-Trajectories를 제안한다.

ABSTRACT

We address the problem of forecasting pedestrian and vehicle trajectories in unknown environments, conditioned on their past motion and scene structure. Trajectory forecasting is a challenging problem due to the large variation in scene structure and the multimodal distribution of future trajectories. Unlike prior approaches that directly learn one-to-many mappings from observed context to multiple future trajectories, we propose to condition trajectory forecasts on plans sampled from a grid based policy learned using maximum entropy inverse reinforcement learning (MaxEnt IRL). We reformulate MaxEnt IRL to allow the policy to jointly infer plausible agent goals, and paths to those goals on a coarse 2-D grid defined over the scene. We propose an attention based trajectory generator that generates continuous valued future trajectories conditioned on state sequences sampled from the MaxEnt policy. Quantitative and qualitative evaluation on the publicly available Stanford drone and NuScenes datasets shows that our model generates trajectories that are diverse, representing the multimodal predictive distribution, and precise, conforming to the underlying scene structure over long prediction horizons.

연구 동기 및 목표

과거 운동 및 장면 구성을 사용하여 미지의 환경에서 보행자와 차량의 궤적을 예측한다.
사전에 정의된 목표 없이 조잡한 2D 격자에서 그럴듯한 목표와 경로를 추론한다.
해석 가능한 계획 표현으로 샘플링된 그리드 계획에 조건화된 연속 궤적을 생성한다.
장면에 부합하면서 다양한 궤적을 생성하고 다운스트림 계획 수립을 위한 축소된 예측 집합을 제공한다.

제안 방법

일시적 경로 보상과 말단 목표 보상을 함께 추론하도록 MaxEnt IRL을 재정의한다.
로컬 장면 패치를 격자 셀의 경로 및 목표 보상으로 매핑하는 보상 모델(CNN 기반)을 학습한다.
목표 조건이 없는 MaxEnt 정책을 사용하여 잠재 목표에 대한 다중모드의 격자 기반 계획을 샘플링한다.
샘플링된 계획과 운동 이력을 연속 미래 궤적으로 매핑하는 주의 기반 궤적 생성기를 구성한다.
계획에 조건화된 궤적을 생성하기 위해 인코더–디코더(GRU 및 BiGRU)와 소프트 어텐션을 사용하여 궤적 생성기를 학습시킨다.
샘플링된 궤적을 K개의 대표적 미래로 클러스터링하여 다운스트림 계획에 활용한다.

실험 결과

연구 질문

RQ1사전에 지정된 끝점 없이 미지의 환경에서 그리드 기반 MaxEnt IRL이 그럴듯하고 다중모드인 목표와 경로를 추론할 수 있는가?
RQ2샘플링된 격자 계획에 조건화된 궤적이 장면 구조에 더 잘 부합하고 이전의 다중모드 방법들에 비해 장기 예측 정확도를 보이는가?
RQ3계획에 조건화된 주의 기반 궤적 생성기가 다운스트림 자율 시스템 계획에 적합한 다양하면서도 정밀한 미래를 생성할 수 있는가?

주요 결과

모델은 장기적 호라이즌에서 기저 장면에 부합하는 다양한 궤적을 생성한다.
P2T는 Stanford Drone 및 NuScenes 데이터셋의 여러 평가 지표에서 강한 샘플 품질 지표를 달성하고 경쟁력 있거나 최첨단 결과를 보인다.
이 방법은 다양성을 유지하면서 정밀도를 높여 다중 모드 예측에서 일반적으로 나타나는 재현율-정밀도 트레이드오프를 해결한다.
K개의 클러스터 궤적을 제공하면 다른 K 값에 대해 모델 재학습 없이도 컴팩트하고 계획자 친화적인 표현을 얻을 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.