Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Control Through Non-Parametric Discriminative Rewards

David Warde-Farley, Tom Van de Wiele|arXiv (Cornell University)|2018. 11. 28.
Reinforcement Learning in Robotics인용 수 49
한 줄 요약

DISCERN은 감독 없이 환경의 제어 가능한 측면에서의 유사성을 측정하는 판별적 비모수 보상 함수를 함께 학습시키고 목표 조건 정책을 공동으로 학습시키며 시각적으로 지정된 목표에 도달하는 방법을 배운다.

ABSTRACT

Learning to control an environment without hand-crafted rewards or expert data remains challenging and is at the frontier of reinforcement learning research. We present an unsupervised learning algorithm to train agents to achieve perceptually-specified goals using only a stream of observations and actions. Our agent simultaneously learns a goal-conditioned policy and a goal achievement reward function that measures how similar a state is to the goal state. This dual optimization leads to a co-operative game, giving rise to a learned reward function that reflects similarity in controllable aspects of the environment instead of distance in the space of observations. We demonstrate the efficacy of our agent to learn, in an unsupervised manner, to reach a diverse set of goals on three domains -- Atari, the DeepMind Control Suite and DeepMind Lab.

연구 동기 및 목표

  • 손으로 설계된 보상이나 전문가 데이터 없이 학습 환경의 마스터리를 유도한다.
  • 도달 가능한 어떤 목표 상태라도 도달할 수 있는 목표 조건 정책을 개발한다.
  • 원시 시각적 유사성 대신 제어 가능한 유사성을 포착하는 목표 달성 보상 함수를 학습한다.
  • 정책과 보상을 공동으로 학습하기 위해 비모수적이고 판별적인 프레임워크를 제안한다.
  • Atari, DM Control Suite, DM Lab 등 다양한 시각 도메인에서 비지도 목표 도달을 시연한다.

제안 방법

  • 목표와 달성 상태 간의 상호 정보를 최대화하는 판별 임베딩 보상 네트워크 DISCERN을 도입한다.
  • 잠재적 분포 q_phi(s_g|s_T)로 상호 정보를 하한하고 목표를 과거 관찰의 한정적이고 진화하는 버퍼 G로 제한한다.
  • 보상 r(s;s_g)를 판별 임베딩에서 파생된 Q-러닝과 경험 재생을 사용하여 목표 조건 정책 pi_theta(a|s;s_g)를 학습한다.
  • 로그 q_phi(s_g|s_T)에 대한 비선형 보상을 0과 1 사이로 변환한 형태를 사용한다. 특히 ell_g의 코사인 유사도에 관한 max(0, ell_g).
  • 비모수 버퍼를 통해 목표를 표현하여 학습이 진행됨에 따라 커리큘럼(드리프트하는 목표 공간)을 가능하게 한다.
  • 과거 회상 경험 재생을 도입하여 목표 재레이블링(Hindsight)으로 임베딩 학습을 안정화한다.

실험 결과

연구 질문

  • RQ1비지도 에이전트가 외부 보상이나 전문가 시연 없이 시각적으로 지정된 목표를 달성하는 학습이 가능한가?
  • RQ2목표 조건 정책과 판별적이고 비모수적 목표 보상 함수를 공동으로 학습하면 원시 시각적 유사성보다 환경의 제어 가능한 측면을 회복할 수 있는가?
  • RQ3DISCERN은 픽셀 관찰(Atari, DM Control Suite, DM Lab)에서 다양한 도메인에 걸쳐 목표 달성에 얼마나 도달할 수 있는가?
  • RQ4비모수 목표 제안과 임베딩 기반 보상이 커리큘럼과 baselines 대비 성능에 어떤 영향을 주는가?
  • RQ5훈련 안정성과 성능에 있어 목표 재레이블링(HER)의 역할과 영향은 무엇인가?

주요 결과

  • DISCERN은 외부 보상 없이 Atari, DM Control Suite, DM Lab에서 다양한 시각적으로 지정된 목표를 달성하는 방법을 학습한다.
  • 판별 임베딩 보상은 제어 가능한 유사성을 포착하여 정책 학습이 방해 요소나 제어 불가능한 물체를 무시하게 한다.
  • 차원별 분석은 어려운 작업에서도 종종 주요 제어 가능한 상태 차원을 일치시키는 것으로 나타났고, 픽셀 또는 GAN 기반 보상에 의존하는 baselines를 능가한다.
  • 임베딩 공간의 코사인 유사도를 기반으로 한 비선형, 자르는 보상은 원시 로그 확률 보상보다 안정성과 성능을 향상시킨다.
  • 비모수 목표 버퍼는 자연스러운 진화 커리큘럼을 제공하여 에이전트가 탐색하는 동안 제어 가능한 요인을 학습을 촉진한다.
  • Hindsight 경험 재생은 임베딩 및 정책 학습을 더욱 안정화시키고 시간적으로 일관된 표현을 돕는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.