QUICK REVIEW

[논문 리뷰] Diversity is All You Need: Learning Skills without a Reward Function

Benjamin Eysenbach, Abhishek Gupta|arXiv (Cornell University)|2018. 02. 16.

Reinforcement Learning in Robotics인용 수 97

한 줄 요약

이 논문은 DIAYN을 제안한다. 이는 상호 정보(I) 최대 엔트로피 정책으로 최대화하는 무감독 방식으로 다양한 스킬을 학습하며, 프리트레이닝, 계층화, 모방을 통해 작업 보상이 없이도 다운스트림 작업을 가능하게 한다.

ABSTRACT

Intelligent creatures can explore their environments and learn useful skills without supervision. In this paper, we propose DIAYN ('Diversity is All You Need'), a method for learning useful skills without a reward function. Our proposed method learns skills by maximizing an information theoretic objective using a maximum entropy policy. On a variety of simulated robotic tasks, we show that this simple objective results in the unsupervised emergence of diverse skills, such as walking and jumping. In a number of reinforcement learning benchmark environments, our method is able to learn a skill that solves the benchmark task despite never receiving the true task reward. We show how pretrained skills can provide a good parameter initialization for downstream tasks, and can be composed hierarchically to solve complex, sparse reward tasks. Our results suggest that unsupervised discovery of skills can serve as an effective pretraining mechanism for overcoming challenges of exploration and data efficiency in reinforcement learning.

연구 동기 및 목표

보상 신호가 없거나 희박할 때 유용한 스킬의 무감독 학습을 동기화한다.
정보 이론적 목표를 제안하여 잠재적으로 조건화된 정책으로 표현된 다양하고 구별 가능한 스킬을 초래한다.
학습된 스킬이 작업 보상 없이 벤치마크 작업을 해결할 수 있음을 증명하고, 초기화, 계층화 및 모방을 통해 다운스트림 작업에 도움을 줄 수 있음을 보여준다.
DIAYN의 환경 간 안정성과 경험적 강건성을 보여주고 탐색 및 데이터 효율성에 대한 실용적 이점을 논의한다.

제안 방법

스킬을 나타내는 잠재 변수 z를 정의하고 z에 조건화된 정책 pi_theta(a|s,z)를 학습한다.
상태 S와 스킬 Z 사이의 상호 정보의 변분 하한과 상태 주어졌을 때 행동에 대한 높은 엔트로피를 장려하는 항을 최대화하되, 판별자 q_phi(z|s)에 의한 구별 가능성을 보장한다.
진짜 작업 보상을 대체하는 의사 보상 r_z(s,a)=log q_phi(z|s) - log p(z)를 사용하고 최대 엔트로피 RL 알고리즘(SAC)으로 최적화한다.
몇 가지 스킬로의 붕괴를 피하기 위해 prior p(z)를 균일하게 고정하고, 시퀀스 전체의 모든 상태를 보는 상태 조건 판별자를 학습한다.
공동 협력적 설정으로, 다채롭고 구별 가능한 스킬을 촉진하도록 메타정책과 판별자를 함께 학습한다.
정해진 horizon에서 학습된 스킬을 선택하도록 메타 컨트롤러를 학습시켜 DIAYN을 계층적 RL로 확장하고, 드문 보상 환경에서의 복잡한 작업을 가능하게 한다.

실험 결과

연구 질문

RQ1무감독 스킬 발견이 보상 신호 없이도 다양하고 유용한 정책을 낳을 수 있는가?
RQ2정보 이론적 목표가 스킬의 구별 가능성과 다양성을 모두 촉진할 수 있는가?
RQ3학습된 스킬이 프리트레이닝, 계층적 구성 또는 모방을 통해 다운스트림 작업으로 이전될 수 있는가?
RQ4DIAYN은 학습된 행동의 안정성과 다양성 측면에서 기존의 무감독 스킬 발견 방법과 비교해 어떤 차이가 있는가?
RQ5DIAYN이 희소 보상 또는 고차원 환경에서 탐색 및 학습을 촉진할 수 있는가?

주요 결과

DIAYN은 보상 없이도 달리기, 걷기, 점프, 뒤집기, 얼굴 추락(face plants) 등의 다양한 스킬을 학습한다.
학습된 스킬은 실제 작업 보상을 받지 않아도 벤치마크 작업을 해결할 수 있으며, 일부 스킬은 서로 다른 방식으로 작업을 해결한다.
스킬은 정책 초기화, 계층적 RL, 모방 학습을 통해 다운스트림 작업의 시럼 샘플 효율성을 개선하며 활용될 수 있다.
DIAYN의 목표 함수는 시드에 관계없이 로버스트하고, 악의적 방법에서 흔히 발생하는 불안정성을 피하는 협력적 학습 동역학을 제공한다.
스킬에 대한 균일한 사전 분포를 고정하면 VIC에서 보이는 매슈(Matthew) 효과를 피하고 다양한 스킬의 지속적 탐색을 가능하게 한다.
계층적 DIAYN은 도전적인 희소 보상 작업 해결을 가능하게 하며 해당 설정에서 경쟁적 기준선보다 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.