QUICK REVIEW

[논문 리뷰] Deep Imitative Models for Flexible Inference, Planning, and Control

Nicholas Rhinehart, Rowan McAllister|arXiv (Cornell University)|2018. 10. 15.

Reinforcement Learning in Robotics참고 문헌 39인용 수 55

한 줄 요약

모방 기반 모델은 전문가 궤적의 확률 모델을 학습하고 테스트 시점의 목표 가능성을 활용해 전문가와 유사한 궤적을 계획하여 유연한 목표를 달성하며, 보상 설계 없이 모방 학습과 계획을 결합한다.

ABSTRACT

Imitation Learning (IL) is an appealing approach to learn desirable autonomous behavior. However, directing IL to achieve arbitrary goals is difficult. In contrast, planning-based algorithms use dynamics models and reward functions to achieve goals. Yet, reward functions that evoke desirable behavior are often difficult to specify. In this paper, we propose Imitative Models to combine the benefits of IL and goal-directed planning. Imitative Models are probabilistic predictive models of desirable behavior able to plan interpretable expert-like trajectories to achieve specified goals. We derive families of flexible goal objectives, including constrained goal regions, unconstrained goal sets, and energy-based goals. We show that our method can use these objectives to successfully direct behavior. Our method substantially outperforms six IL approaches and a planning-based approach in a dynamic simulated autonomous driving task, and is efficiently learned from expert demonstrations without online data collection. We also show our approach is robust to poorly specified goals, such as goals on the wrong side of the road.

연구 동기 및 목표

전통적 모방 학습과 보상 기반 계획을 넘어서는 유연한 목표 지향 제어의 필요성을 동기화한다.
장면 관측 조건에 따라 전문가 궤적을 예측하는 확률적 모방 모델을 제안한다.
모방 사전분포와 테스트 시점 목표 가능성을 결합한 계획 objective를 개발하여 전문가와 유사한 계획을 생성한다.
자율 주행의 다양한 목표 명세와 테스트 시점 조건에서 견고성 및 유연성을 보여준다.

제안 방법

오프라인 시연으로부터 전문가 궤적을 예측하는 인위적 모델 q(S1:T | φ)를 학습한다.
확률적 궤도 밀도(R2P2 기반 자회귀 흐름)를 이용해 전문가 유사 행동을 모델링하고 그래디언트 기반 계획을 가능하게 한다.
사후 최대 추정 계획 objective를 수립한다: s* = argmax_s log q(s|φ) + log p(G|s,φ) - log p(G|φ).
다양한 목표 가능성 p(G|s,φ) 구성: 최종 상태 지시자(영역/선/점 제약), Gaussian 최종 상태(단일 또는 다수 미래 상태), Gaussian 상태 시퀀스, 선택적 테스트 시점 비용이 포함된 Gaussian 최종 상태 혼합.
경로 지점(route waypoints)을 목표로 사용하고 LIDAR/카메라 입력s, PID 저수준 제어기를 활용하여 CARLA에서 자율 주행에 모델을 구현한다.
과거 상태, 인지 χ, 교통 신호 λ, 잠재 Z를 포함한 입력으로 q(S|φ)를 매개화하는 어텐션 보강 신경망 아키텍처(mθ, σθ)를 사용한다.

실험 결과

연구 질문

RQ1오프라인으로 학습된 모방 모델이 보상 설계 없이도 해석 가능한 전문가 같은 다단계 계획을 생성할 수 있는가?
RQ2학습 중 보지 못한 목표(예: 지역 기반 목표, 포트홀 회피) 달성을 테스트 시점에서 얼마나 유연하게 달성할 수 있는가?
RQ3목표 명세가 노이즈, 잘못된 목표, 속임수 경유지(decoy waypoints)로 인해 얼마나 견고한가?
RQ4제안된 방법이 표준 센서 입력을 이용한 CARLA에서 동적 환경에서도 최첨단 성능에 도달하는가?
RQ5테스트 시점 비용이나 다양한 목표 가능성 형식의 도입이 계획 품질에 어떤 영향을 미치는가?

주요 결과

이 방법은 보상 엔지니어링 없이 해석 가능하고 전문가 같은 다단계 계획을 생성하며 CARLA에서 여섯 가지 모방 학습 접근법과 계획 기반 베이스라인보다 우수하다.
다양한 목표 가능성으로 모방 계획을 수행하면 학습 및 테스트 조건 모두에서 강력한 성능을 달성하며 동적 장면에서도 효과적이다.
잘못된 도로 쪽 목표나 미리 제시되지 않은 목표를 포함한 노이즈가 많은 목표에 대해서도 견고성을 보인다.
일반적인 자율 주행 입력(경로 지점 및 LIDAR)을 사용한 실험에서 CARLA에서 최첨단 또는 경쟁력 있는 성능을 달성한다.
테스트 시점 비용(예: 포트홀 회피)을 도입하여 학습에서 보여주지 못했던 안전하고 목표 지향적인 행동을 생성할 수 있다.
모방 사전분포와 목표 가능성을 활용함으로써 재훈련 없이도 새로운 작업에 대한 유연성을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.