QUICK REVIEW

[논문 리뷰] Composing Meta-Policies for Autonomous Driving Using Hierarchical Deep Reinforcement Learning

Richard Liaw, Sanjay Krishnan|arXiv (Cornell University)|2017. 11. 04.

Reinforcement Learning in Robotics참고 문헌 23인용 수 17

한 줄 요약

이 논문은 부분적으로 관측 가능하고 노이즈가 있는 환경에서 자율 주행을 위한 사전 훈련된 기초 정책들로부터 메타정책을 조합하는 계층적 딥 강화학습 접근법을 제안한다. 고정된 컨트롤러들 사이에서 동적으로 선택을 수행하는 GRU 기반 메타정책을 사용함으로써, 표준 강화학습이 부분 관측 시나리오에서 200회 반복 후에도 수렴하지 못하는 동안 50회 반복 이내에 수렴하면서, 다음으로 우수한 조합 기법보다 2.6배 높은 보상과 완전 관측 설정에서 탐색을 80% 감소시킨다.

ABSTRACT

Rather than learning new control policies for each new task, it is possible, when tasks share some structure, to compose a "meta-policy" from previously learned policies. This paper reports results from experiments using Deep Reinforcement Learning on a continuous-state, discrete-action autonomous driving simulator. We explore how Deep Neural Networks can represent meta-policies that switch among a set of previously learned policies, specifically in settings where the dynamics of a new scenario are composed of a mixture of previously learned dynamics and where the state observation is possibly corrupted by sensing noise. We also report the results of experiments varying dynamics mixes, distractor policies, magnitudes/distributions of sensing noise, and obstacles. In a fully observed experiment, the meta-policy learning algorithm achieves 2.6x the reward achieved by the next best policy composition technique with 80% less exploration. In a partially observed experiment, the meta-policy learning algorithm converges after 50 iterations while a direct application of RL fails to converge even after 200 iterations.

연구 동기 및 목표

기존 정책들을 재학습하지 않고 조합함으로써 미지 또는 혼합된 동역학적 제어를 가진 자율 차량을 제어하는 데 도전하는 것.
이미 훈련된 정책들을 기초 정책으로 활용하여 강화학습의 샘플 효율성과 수렴 속도를 향상시키는 것.
감지 노이즈로 인한 부분 관측을 다루기 위해 메타정책에 순환 신경망(GRUs)을 사용하여 과거 관측치의 기억을 유지하는 것.
모의 주행 환경에서 다양한 동역학 혼합, 간섭 정책, 노이즈 분포에 대해 메타정책 학습의 강건성을 평가하는 것.
보상, 수렴 속도, 샘플 효율성 측면에서 직접 RL 및 앙상블 방법과의 비교를 통해 메타정책 학습의 성능을 평가하는 것.

제안 방법

메타정책은 딥 강화학습을 사용하여 학습되며, 동작 공간은 k개의 사전 훈련된 기초 정책들 중에서 이산 선택이다 (예: 새로운 차량과 오래된 차량에 대한 크루즈 컨트롤).
메타정책은 시간적 종속성을 모델링하고 부분 관측 가능성을 처리하기 위해 기억을 유지함으로써 과거 상태와 관측치를 유지하는 Gated Recurrent Unit (GRU)로 표현된다.
기초 정책들은 고정되어 있으며 알려진 동역학 제어 범위(예: 마모 수준이 다른 차량)에서 사전 훈련되었고, 메타정책은 현재 상태 관측치에 따라 각 정책을 언제 적용할지 학습한다.
훈련에는 할인 인자 0.995, 배치 크기 1000–2000, 학습률 0.001을 사용한 정책 기반 강화학습 방법을 사용하여 메타정책의 선택 전략을 최적화한다.
실험은 다양한 동역학 혼합, 감지 노이즈, 장애물 구성이 있는 연속 상태, 이산 행동 주행 시뮬레이터에서 수행된다.
성능 및 샘플 효율성 평가를 위해 직접 RL, 투표 앙상블, 신뢰도 앙상블, 다중 암초 기반 밴딧 기준과의 비교가 수행된다.

실험 결과

연구 질문

RQ1기존 기초 정책들로부터 조합된 메타정책이 동역학이 알려지지 않은 자율 주행 작업에서 직접 강화학습보다 더 높은 샘플 효율성과 더 빠른 수렴 속도를 달성할 수 있는가?
RQ2감지 노이즈로 인한 부분 관측 가능성을 고려할 때 메타정책은 어떻게 성능을 발휘하는가? 순환 모델은 비순환 모델보다 성능을 향상시킬 수 있는가?
RQ3무관하거나 열악한 성능을 보이는 간섭 정책을 포함할 경우, 메타정책의 수렴 능력과 높은 보상 달성 능력에 어떤 영향을 미치는가?
RQ4보상 형태(예: 선형 대비 제곱 거리 페널티)는 메타정책 학습의 수렴 속도에 어떤 영향을 미치며, 직접 RL과의 비교에서 어떤가?
RQ5메타정책 학습이 보상과 탐색 효율성 측면에서 단순 앙상블 또는 밴딧 기반 선택 전략을 초월할 수 있는가?

주요 결과

완전 관측 설정에서 메타정책 학습 접근법은 다음으로 우수한 정책 조합 기법보다 2.6배 높은 보상을 달성했고, 직접 RL보다 탐색을 80% 감소시켰다.
부분 관측 설정에서 메타정책은 약 50회 반복 이내에 고보상 정책으로 수렴했고, 직접 RL은 200회 반복 후에도 수렴하지 못했다.
최종 보상 측면에서 메타정책은 투표 앙상블(31.92 대 87.90)과 신뢰도 앙상블(10.32 대 87.90)을 모두 앞섰고, 직접 RL 기준은 500회 반복 후 89.16의 보상을 기록했다.
메타정책에 GRU를 사용함으로써 과거 관측치의 기억을 유지함으로써 부분 관측 가능성을 효과적으로 처리하고 감지 노이즈에 대한 강건성을 향상시켰다.
메타정책 학습의 수렴 속도는 보상 형태가 강화될수록 향상되었으며, 이는 희소하거나 지연된 보상 환경에서 가장 유익한 것으로 나타났다.
3개의 간섭 정책을 포함한 다중 암초 기반 밴딧 기준(UCB)은 4,000단계 내에 정책 선택을 정확히 수행했으며, 이는 계층적 RL보다 두 개의 지수 차수 빠른 속도였다. 이는 하이브리드 초기화 전략의 잠재적 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.