QUICK REVIEW

[논문 리뷰] Query-Efficient Imitation Learning for End-to-End Autonomous Driving

Jiakai Zhang, Kyunghyun Cho|arXiv (Cornell University)|2016. 05. 20.

Reinforcement Learning in Robotics참고 문헌 15인용 수 115

한 줄 요약

SafeDAgger는 DAgger를 안전 정책으로 확장하여 참조 정책 쿼리를 줄이고, 엔드-투-엔드 자율 주행 및 TORCS 시뮬레이션에서 더 빠르고 안전한 수렴을 가능하게 한다.

ABSTRACT

One way to approach end-to-end autonomous driving is to learn a policy function that maps from a sensory input, such as an image frame from a front-facing camera, to a driving action, by imitating an expert driver, or a reference policy. This can be done by supervised learning, where a policy function is tuned to minimize the difference between the predicted and ground-truth actions. A policy function trained in this way however is known to suffer from unexpected behaviours due to the mismatch between the states reachable by the reference policy and trained policy functions. More advanced algorithms for imitation learning, such as DAgger, addresses this issue by iteratively collecting training examples from both reference and trained policies. These algorithms often requires a large number of queries to a reference policy, which is undesirable as the reference policy is often expensive. In this paper, we propose an extension of the DAgger, called SafeDAgger, that is query-efficient and more suitable for end-to-end autonomous driving. We evaluate the proposed SafeDAgger in a car racing simulator and show that it indeed requires less queries to a reference policy. We observe a significant speed up in convergence, which we conjecture to be due to the effect of automated curriculum learning.

연구 동기 및 목표

참조 정책에서 학습하는 방식으로 엔드-투-엔드 자율 주행의 동기를 제시한다.
참조 정책이 비용이 많이 드는 경우(예: 인간 운전사)에서 DAgger의 높은 쿼리 비용을 다룬다.
참조 정책 쿼리를 최소화하기 위한 안전 정책이 있는 DAgger의 쿼리 효율적 확장인 SafeDAgger를 제안한다.
TORCS 시뮬레이션을 통해 SafeDAgger가 수렴 속도와 충돌/손상을 감소시킴을 입증한다.
안전 평가에 의해 안내되는 부분 샘플링으로 자동화된 커리큘럼 학습 효과를 강조한다.

제안 방법

주 정책이 참조 정책을 쿼하지 않고도 벗어날 수 있을지 예측하는 안전 정책을 도입한다.
Deviation ε(π,π*,φ(s)) = ||π(φ(s)) − π*(φ(s))||^2 와 임계값 τ를 정의하여 π_safe*를 형성한다.
데이터 수집 중 실제로는 안전 정책이 0을 반환하는 ‘어려운 예제’만 참조 정책을 쿼리하도록 SafeDAgger 루프에 안전 정책을 통합한다.
데이터 수집 중 쿼리된 상태를 제한하기 위해 부분 샘플링을 사용하여 데이터 효율성과 커리큘럼 유사 학습을 가능하게 한다.
기본 DAgger와 유사한 학습-탐색 프레임워크를 유지하되, 반복마다 주 정책과 안전 정책 모두를 업데이트한다.
깊은 CNN 주 정책이 조향, 브레이크, 어포던스 예측을 하고, 안전 정책이 안전/비안전 운전을 예측하는 TORCS 적용.

실험 결과

연구 질문

RQ1SafeDAgger가 엔드-투-엔드 운전에서 표준 DAgger에 비해 참조 정책에 대한 쿼리 수를 줄이는가?
RQ2SafeDAgger가 시뮬레이션된 운전 환경에서 감독 학습이나 DAgger보다 더 빠른 수렴 및 더 나은 운전 성능(충돌 감소, 손상 감소)을 달성하는가?
RQ3안전 정책이 데이터를 효율화하고 정책 품질을 향상시키는 의미 있는 자동화된 커리큘럼을 가능하게 하는가?
RQ4TORCS에서 교통 상황有/無에서 SafeDAgger의 성능 차이는 어떠한가?
RQ5다른 모방 학습 프레임워크에 SafeDAgger의 안전 정책 개념을 일반화하는 것이 가능한가?

주요 결과

SafeDAgger는 학습 중 원래의 DAgger보다 참조 정책에 대한 쿼리가 현저히 적다.
세 번의 반복 후 SafeDAgger로 학습된 정책은 TORCS 설정에서 거의 완벽한 주행에 도달한다.
테스트 중 참조 정책의 사용 시간이 안전 정책으로 인해 줄어들었고, 초기에는 7.11%(무교통)와 10.81%(교통)로 나타났다.
보고된 설정에서 약 77.70%의 학습 예제가 안전한 것으로 간주된다.
SafeDAgger는 vanilla DAgger에 비해 더 빠른 수렴과 참조 정책 의존도 감소의 명확한 하향 추세를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.