QUICK REVIEW

[논문 리뷰] Learning Trajectory Prediction with Continuous Inverse Optimal Control via Langevin Sampling of Energy-Based Models.

Yifei Xu, Tianyang Zhao|arXiv (Cornell University)|2019. 04. 10.

Autonomous Vehicle Technology and Safety참고 문헌 23인용 수 10

한 줄 요약

이 논문은 에너지 기반 모델에서 랑주뱅 샘플링을 사용한 모델 기반 역최적제어 방법을 제안하여 자율주행 차량의 궤적을 예측한다. 시범 주행 데이터로부터 비마르코프성이고 신경망 증강된 비용 함수를 학습함으로써 운동학적 제약 조건과 환경 맥락을 통합하면서도 최신 기술 수준의 예측 정확도를 달성한다.

ABSTRACT

Autonomous driving is a challenging multiagent domain which requires optimizing complex, mixed cooperative-competitive interactions. Learning to predict contingent distributions over other vehicles' trajectories simplifies the problem, allowing approximate solutions by trajectory optimization with dynamic constraints. We take a model-based approach to prediction, in order to make use of structured prior knowledge of vehicle kinematics, and the assumption that other drivers plan trajectories to minimize an unknown cost function. We introduce a novel inverse optimal control (IOC) algorithm to learn other vehicles' cost functions in an energy-based generative model. Langevin Sampling, a Monte Carlo based sampling algorithm, is used to directly sample the control sequence. Our algorithm provides greater flexibility than standard IOC methods, and can learn higher-level, non-Markovian cost functions defined over entire trajectories. We extend weighted feature-based cost functions with neural networks to obtain NN-augmented cost functions, which combine the advantages of both model-based and model-free learning. Results show that model-based IOC can achieve state-of-the-art vehicle trajectory prediction accuracy, and naturally take scene information into account.

연구 동기 및 목표

차량 간 복잡한 협력-경쟁 상호작용을 모델링하여 자율주행에서 궤적 예측을 향상시키기 위해.
관측된 궤적을 통해 알려지지 않은 운전자 비용 함수를 역최적제어를 통해 학습하기 위해.
기본적인 마르코프 성질을 초월하여 전체 궤적에 의존하는 비마르코프성 비용 함수 학습의 유연성 확보를 위해.
차량 운동학적 제약 조건과 데이터 기반 신경망을 융합하여 일반화 성능 향상시키기 위해.
역동적 제약 조건을 충족시키면서 직접 제어 시퀀스를 생성하는 샘플링 기반 추론 방법 개발을 위해.

제안 방법

주행 행동의 비용 함수를 표현하기 위해 에너지 기반 생성 모델을 사용한다.
랑주뱅 샘플링—몬테카를로 방법—을 적용하여 에너지 기반 모델에서 직접 제어 시퀀스를 샘플링한다.
관측된 차량 궤적에서 비용 함수를 학습하는 새로운 역최적제어 알고리즘을 도입한다.
복잡한 고차원 주행 선호도를 모델링하기 위해 특징 기반 비용 함수에 신경망을 증강한다.
모델 구조에 차량 운동학적 제약 조건을 사전 지식으로 통합한다.
샘플링을 통한 궤적 타당성 유지와 함께 기울기 기반 학습을 통해 비용 함수를 최적화한다.

실험 결과

연구 질문

RQ1랑주뱅 샘플링을 통한 역최적제어는 다중 에이전트 주행 환경에서 궤적 예측 정확도 향상에 기여하는가?
RQ2전체 궤적에 의존하는 비마르코프성 비용 함수를 얼마나 잘 학습할 수 있는가?
RQ3신경망과 모델 기반 사전 지식을 조합함으로써 예측 성능 향상에 어느 정도 기여하는가?
RQ4이 방법은 궤적 예측에서 환경 맥락과 역동적 제약 조건을 자연스럽게 통합할 수 있는가?
RQ5기존의 모델리스 및 모델기반 기준 대비 제안된 방법은 어떻게 비교되는가?

주요 결과

제안된 방법은 구조적 사전 지식과 신경망 증강 비용 함수를 활용하여 최신 기술 수준의 궤적 예측 정확도를 달성한다.
랑주뱅 샘플링은 역동적 제약 조건을 충족시키면서 타당한 제어 시퀀스를 직접 생성할 수 있도록 한다.
모델은 전체 궤적에 의존하는 고차원 비마르코프성 비용 함수를 성공적으로 학습하여 예측 정밀도를 향상시킨다.
신경망 증강 비용 함수는 복잡한 주행 행동을 포착함으로써 전통적인 특징 기반 함수보다 뛰어난 성능을 보인다.
이 방법은 환경 맥락과 운동학적 제약 조건을 자연스럽게 통합하여 더 현실적이고 안전한 궤적 예측을 가능하게 한다.
특히 협력-경쟁가 복합 환경에서 기존의 표준 역최적제어 방법에 비해 더 큰 유연성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.