QUICK REVIEW

[논문 리뷰] Skew-Fit: State-Covering Self-Supervised Reinforcement Learning

Vitchyr H. Pong, Murtaza Dalal|arXiv (Cornell University)|2019. 03. 08.

Reinforcement Learning in Robotics참고 문헌 39인용 수 66

한 줄 요약

Skew-Fit는 무감독 RL을 위한 원칙적 목표를 제안하며, 최대 엔트로피 목표 분포를 학습하고 이를 목표 지향적 탐험과 결합하여 사용자가 지정한 목표에 도달하기 위한 재사용 가능한 정책을 생성한다.

ABSTRACT

Autonomous agents that must exhibit flexible and broad capabilities will need to be equipped with large repertoires of skills. Defining each skill with a manually-designed reward function limits this repertoire and imposes a manual engineering burden. Self-supervised agents that set their own goals can automate this process, but designing appropriate goal setting objectives can be difficult, and often involves heuristic design decisions. In this paper, we propose a formal exploration objective for goal-reaching policies that maximizes state coverage. We show that this objective is equivalent to maximizing goal reaching performance together with the entropy of the goal distribution, where goals correspond to full state observations. To instantiate this principle, we present an algorithm called Skew-Fit for learning a maximum-entropy goal distributions. We prove that, under regularity conditions, Skew-Fit converges to a uniform distribution over the set of valid states, even when we do not know this set beforehand. Our experiments show that combining Skew-Fit for learning goal distributions with existing goal-reaching methods outperforms a variety of prior methods on open-sourced visual goal-reaching tasks. Moreover, we demonstrate that Skew-Fit enables a real-world robot to learn to open a door, entirely from scratch, from pixels, and without any manually-designed reward function.

연구 동기 및 목표

수동 보상 설계 없이 광범위한 기술 레퍼토리의 필요성을 고취한다.
상태 범위를 최대화하면서 테스트 시 목표 지향적 사용을 가능하게 하는 탐험 목표를 정의한다.
유효한 상태들에 대한 최대 엔트로피 목표 분포를 학습하기 위한 Skew-Fit를 제안한다.
정규성 가정 하에 균일한 목표 분포로 수렴될 수 있음을 보장하는 수렴성 보장을 보여준다.
비전 기반 과제와 실제 세계의 문 여는 로봇에서 실증적 이득을 보인다.

제안 방법

상태 S와 목표 G 사이의 상호정보 I(S;G)를 최대화하는 탐험으로 프레이밍한다.
목표-조건 RL을 통해 H(G|S)를 최소화하고 다양한 목표 샘플링으로 H(G)를 최대화하는 방식으로 분해한다.
Skew-Fit를 도입한다: 드문 상태 쪽으로 샘플을 반복적으로 편향시켜 S에 대해 균일 분포에 다가가도록 학습하는 제너레이티브 모델 q_phi^G를 학습한다.
p^S_phi(S)를 q_phi^G(S)로 근사하여 중요 샘플링 기반 가중치 w_t,alpha(S)=q_phi^G(S)^alpha (단 α<0)를 계산한다.
q_phi^G를 업데이트할 때 분산을 줄이기 위해 샘플링 중요 재샘플링(SIR)을 사용한다.
H(G|S)를 최소화하기 위해 목표-조건 정책을 RIG과 beta-VAE를 활용하여 동시 학습하고 목표를 재레이레이블한다.
beta-VAE를 q_phi^G의 제너레이티브 모델로 재사용하고 이미지 기반 목표에 대해 학습된 표현을 활용한다.

실험 결과

연구 질문

RQ1Skew-Fit가 반복에 걸쳐 목표 분포의 엔트로피를 안정적으로 증가시키는가?
RQ2Skew-Fit를 목표-조건 정책과 결합하면 비전 기반 RL 과제의 탐험이 개선되는가?
RQ3비전 기반 연속 제어 과제에서 Skew-Fit가 기존의 목표 샘플링 방법과 어떻게 비교되는가?
RQ4작업 보상 없이 실제 비전 기반 로봇 조작에 Skew-Fit가 확장될 수 있는가?
RQ5어떤 조건에서 Skew-Fit가 유효한 상태들에 대한 균일 분포로 수렴하는가?

주요 결과

Skew-Fit는 목표 분포의 상태 공간 엔트리를 지속적으로 증가시켜 2D 항해 예제에서 거의 균일한 커버리지를 근접하게 한다.
개미 항해 및 미로 과제에서 Skew-Fit은 탐험 효율성 측면에서 기존의 목표 샘플링 방법을 크게 능가한다.
비전 기반 연속 제어 과제들(Visual Door, Visual Pusher, Visual Pickup)과 실제 세계의 Visual Door 과제에서 Skew-Fit은 기준선보다 우수하며, 작업 보상 없이 픽셀에서 문 여는 것을 가능하게 한다.
Skew-Fit는 수동으로 설계된 보상 없이 처음부터 학습이 가능하며 약 5시간의 학습으로 실제 세계에서 문 열기 능력을 달성한다.
이 방법은 beta-VAE 기반 표현(RIG)을 재사용하여 목표-조건 정책과 목표 분포를 모두 학습하고, 재레이레이블링과 잠재 공간 계획을 활용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.