QUICK REVIEW

[논문 리뷰] Learning to Reach Goals via Iterated Supervised Learning

Dibya Ghosh|arXiv (Cornell University)|2019. 12. 12.

Reinforcement Learning in Robotics참고 문헌 49인용 수 29

한 줄 요약

이 논문은 목표 조건부 지도 학습(GCSL)을 제안한다. 이는 전문가 지시나 가치 함수 추정 없이, 오직 자기 자신의 롤아웃만을 사용하여 목표 도달 행동을 처음부터 학습할 수 있는 단순하고 안정적인 강화학습 알고리즘이다. 반복적으로 궤적을 재라벨링하여 궤적의 최종 상태를 목표로 간주하고, 이러한 재라벨링된 궤적을 바탕으로 지도 학습을 통해 정책을 미세조정함으로써, GCSL는 강화학습 목표의 하한을 증명 가능하게 최적화하며, 벤치마크 작업에서 가치 기반 및 정책 그래디언트 방법보다 뛰어난 성능을 보이며 하이퍼파rameter에 더 강건하다.

ABSTRACT

Current reinforcement learning (RL) algorithms can be brittle and difficult to use, especially when learning goal-reaching behaviors from sparse rewards. Although supervised imitation learning provides a simple and stable alternative, it requires access to demonstrations from a human supervisor. In this paper, we study RL algorithms that use imitation learning to acquire goal reaching policies from scratch, without the need for expert demonstrations or a value function. In lieu of demonstrations, we leverage the property that any trajectory is a successful demonstration for reaching the final state in that same trajectory. We propose a simple algorithm in which an agent continually relabels and imitates the trajectories it generates to progressively learn goal-reaching behaviors from scratch. Each iteration, the agent collects new trajectories using the latest policy, and maximizes the likelihood of the actions along these trajectories under the goal that was actually reached, so as to improve the policy. We formally show that this iterated supervised learning procedure optimizes a bound on the RL objective, derive performance bounds of the learned policy, and empirically demonstrate improved goal-reaching performance and robustness over current RL algorithms in several benchmark tasks.

연구 동기 및 목표

목표 도달을 위한 안정적이고 데이터 효율적인 강화학습 알고리즘을 개발하여 가치 기반 및 정책 그래디언트 방법의 취약성을 피하고자 한다.
목표 조건부 강화학습에서 희박한 보상, 전문가 지시, 가치 함수 추정에 의존하지 않도록 하고자 한다.
반복적인 자기 모방을 통해 자기의 열악한 궤적에서 최적의 목표 도달 행동을 학습할 수 있도록 하고자 한다.
반복적인 재라벨링과 모방 과정이 강화학습 목표의 하한을 최적화한다는 것을 공식적으로 보여주고자 한다.
최첨단 가치 기반 및 정책 그래디언트 방법과 비교하여 뛰어난 성능과 강건성을 경험적으로 입증하고자 한다.

제안 방법

각 반복 단계에서 에이전트는 현재 정책를 사용하여 다양한 목표를 향해 롤아웃을 수집한다.
각 궤적은 궤적의 최종 상태를 목표로 간주하도록 재라벨링되어, 열악한 행동이 해당 최종 상태에 대한 성공적인 시범이 된다.
에이전트는 이러한 재라벨링된 궤적에서 실제 도달한 목표 하에 행동의 가능도를 최대화함으로써 목표 조건부 지도 학습을 수행한다.
업데이트된 정책는 다음 반복에서 사용되며, 이 과정을 반복함으로써 점차 성능이 향상된다.
모든 과거 궤적을 재사용하는 오프-폴리시 데이터 재사용 전략을 활용하여 데이터 효율성을 극대화하며, 재가중치 조정이 필요하지 않다.
이 알고리즘은 전문가 지시와 호환되며, 데이터셋에 추가함으로써 학습 속도를 높일 수 있다.

실험 결과

연구 질문

RQ1에이전트는 오직 자신의 롤아웃과 지도 학습만을 사용하여 최적의 목표 도달 행동을 처음부터 학습할 수 있는가?
RQ2최종 상태를 목표로 간주하여 궤적을 반복적으로 재라벨링하는 것이 정책 최적화를 증명 가능하게 향상시키는가?
RQ3이 자기 모방 접근법의 성능과 강건성은 가치 기반 및 정책 그래디언트 강화학습 방법과 비교해 어떻게 되는가?
RQ4사용 가능한 경우 이 방법은 전문가 지시를 효과적으로 통합할 수 있으며, 이러한 환경에서 기존 방법보다 뛰어난 성능을 보이는가?
RQ5기존의 딥 강화학습 알고리즘에 비해 하이퍼파rameter에 덜 민감한가?

주요 결과

GCSL는 여러 벤치마크 환경에서 TD3-HER 및 기타 가치 기반 및 정책 그래디언트 방법보다 목표 도달 성능에서 뛰어나다.
하이퍼파rameter 설정에 따른 최종 성능 분포가 GCSL에서는 TD3-HER보다 훨씬 더 좁게 분포되어 있어, 하이퍼파rameter에 대한 민감도가 현저히 낮음을 시사한다.
전문가 지시로 초기화된 경우, GCSL는 TD3-HER보다 더 빠르고 더 큰 향상을 보였으며, 사전 훈련 단계에서 오차 누적과 불안정성 문제를 악용하지 못하는 것으로 나타났다.
GCSL는 가치 함수 추정이나 복잡한 재가중치 조정 기법 없이도 오프-폴리시 데이터를 효과적으로 활용할 수 있다.
이 알고리즘은 목표 도달 강화학습 목표의 하한을 증명 가능하게 최적화하며, 반복적인 자기 모방 과정의 이론적 정당성을 제공한다.
시간에 따라 변화하는 정책에서도 GCSL는 방향성 있는 최단 경로 유사 행동을 보이며, 학습된 정책의 본질적인 일관성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.