QUICK REVIEW

[논문 리뷰] Truncated Horizon Policy Search: Combining Reinforcement Learning & Imitation Learning

Wen Sun, J. Andrew Bagnell|arXiv (Cornell University)|2018. 02. 15.

Reinforcement Learning in Robotics참고 문헌 22인용 수 38

한 줄 요약

이 논문은 비최적의 목적함수 추정기(cost-to-go oracle)를 사용하여 보상 함수를 재구성함으로써, 암시적 학습(IL)과 강화학습(RL)을 통합하는 Truncated HORizon Policy Search(THOR)를 제안한다. 목적함수 추정기의 정확도에 기반해 계획 수평을 잘라내어, 순수한 RL 또는 IL 기준보다 더 빠르고 샘플 효율적인 학습을 가능하게 하며, 전문가 정보가 불완전한 상황에서도 뛰어난 성능을 달성한다.

ABSTRACT

In this paper, we propose to combine imitation and reinforcement learning via the idea of reward shaping using an oracle. We study the effectiveness of the near-optimal cost-to-go oracle on the planning horizon and demonstrate that the cost-to-go oracle shortens the learner's planning horizon as function of its accuracy: a globally optimal oracle can shorten the planning horizon to one, leading to a one-step greedy Markov Decision Process which is much easier to optimize, while an oracle that is far away from the optimality requires planning over a longer horizon to achieve near-optimal performance. Hence our new insight bridges the gap and interpolates between imitation learning and reinforcement learning. Motivated by the above mentioned insights, we propose Truncated HORizon Policy Search (THOR), a method that focuses on searching for policies that maximize the total reshaped reward over a finite planning horizon when the oracle is sub-optimal. We experimentally demonstrate that a gradient-based implementation of THOR can achieve superior performance compared to RL baselines and IL baselines even when the oracle is sub-optimal.

연구 동기 및 목표

IL과 RL의 강점을 융합함으로써 두 분야 간 격차를 메우기.
전문가가 비최적일 경우에도 정책 성능이 전문가 성능에 머무르는 IL의 한계를 해결하기.
전문가의 목적함수 추정치를 활용해 학습을 가속화하면서도 전문가를 초월하는 성능을 달성할 수 있는 방법 개발하기.
목적함수 추정기 정확도에 기반해 계획 수평을 잘라내는 것이 샘플 효율성과 성능 향상에 기여함을 입증하기.

제안 방법

비용-도달 함수(ˆVe)를 사용하여 원래 MDP의 비용 함수를 잠재 기반 보상 재구성으로 재구성한다.
정확도가 최적의 가치 함수 V*에 비해 얼마나 높은지에 따라 결정되는 길이 k의 자르기 계획 수평을 도입한다.
이산 MDP의 경우, 수학적으로 전문가보다 우월한 정책을 보장하며, 성능 격차를 정량화할 수 있다.
실제로는 기울기 기반 정책 탐색 알고리즘을 사용하여 연속 상태 및 행동 공간에 적용 가능하다.
복잡한 함수 근사기 사용이 가능하며, TRPO-GAE와 같은 기존 RL 알고리즘과도 조합 가능하다.
일般적으로 ˆVe는 전문가 시퀀스를 기반으로 TD 학습을 통해 사전 학습되지만, 온라인 업데이트도 가능하다.

실험 결과

연구 질문

RQ1비용-도달 추정기의 정확도가 정책 학습에서 효과적인 계획 수평에 어떤 영향을 미치는가?
RQ2IL과 결합했을 때 자르기 계획 수평이 샘플 효율성과 성능 향상에 기여하는가?
RQ3비최적의 추정기로 보상 재구성하는 것이 순수한 IL 및 RL 기준보다 뛰어난 정책 성능을 달성할 수 있는가?
RQ4불완전한 추정기를 고려할 때, 편향, 분산, 성능의 균형을 고려해 최적의 자르기 길이 k는 무엇인가?

주요 결과

Acrobot와 Mountain Car 환경에서 k > 1인 THOR는 k = 1인 AGGREVATED보다 평균 + 표준편차 측면에서 뚜렷이 뛰어난 성능을 보이며, 더 뛰어난 안정성과 성능을 입증한다.
Hopper와 Swimmer와 같은 희박한 보상 환경에서는 THOR가 전체 수평 H의 약 20–30%에 해당하는 k ≈ 20–30%일 때 TRPO-GAE 및 AGGREVATED보다 뛰어난 성능을 달성했다.
특히 희박한 보상 환경에서, 정책 기울기 추정의 롤아웃 길이가 짧아져 THOR는 런 간 정책 성능 변동성을 줄였다.
불완전한 ˆVe가 존재하더라도, k = H(전체 수평)인 THOR는 여전히 TRPO-GAE를 능가하는 성능을 보였으며, 이는 추정기를 통한 보상 재구성의 유용성을 확인한다.
모든 테스트 환경에서, 수평이 H = 200 또는 H = 1000으로 연장되었을 때조차도, THOR는 TRPO-GAE보다 더 빠른 수렴 속도를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.