QUICK REVIEW

[논문 리뷰] Hindsight Experience Replay

Marcin Andrychowicz, Filip Wolski|arXiv (Cornell University)|2017. 07. 05.

Reinforcement Learning in Robotics참고 문헌 44인용 수 352

한 줄 요약

HER는 대체 목표로 각 에피소드를 재생함으로써 희소 이진 보상에서 샘플 효율적 학습을 가능하게 하고, 로봇 공학의 다중 목표 작업에서 오프폴리시 RL를 향상시킨다.

ABSTRACT

Dealing with sparse rewards is one of the biggest challenges in Reinforcement Learning (RL). We present a novel technique called Hindsight Experience Replay which allows sample-efficient learning from rewards which are sparse and binary and therefore avoid the need for complicated reward engineering. It can be combined with an arbitrary off-policy RL algorithm and may be seen as a form of implicit curriculum. We demonstrate our approach on the task of manipulating objects with a robotic arm. In particular, we run experiments on three different tasks: pushing, sliding, and pick-and-place, in each case using only binary rewards indicating whether or not the task is completed. Our ablation studies show that Hindsight Experience Replay is a crucial ingredient which makes training possible in these challenging environments. We show that our policies trained on a physics simulation can be deployed on a physical robot and successfully complete the task.

연구 동기 및 목표

로봇 공학에서 보상 설계의 난이도와 희박한 신호로부터 학습의 필요성에 대해 동기를 부여한다.
목표를 입력으로 포함하는 일반화된 정책을 학습하는 방법을 도입한다.
목표를 바꿔 경험을 재생하는 것이 학습 효율성을 극적으로 향상시킬 수 있음을 보여준다.
시뮬레이션에서 학습된 정책이 실제 로봇으로 전달될 수 있음을 입증한다.

제안 방법

상태와 목표를 입력으로 받는 범용 가치 함수 근사기를 사용한다.
원래 목표로 에피소드를 재생하고, 에피소드에서 달성된 최종 상태와 같은 추가 목표로 재생한다(또는 다른 전략을 사용한다).
리플레이 버퍼를 히indsight 전이로 보강한 오프폴리시 RL 알고리즘(DQN, DDPG, NAF, SDQN 등)을 적용한다.
보상은 희소 이진 보상으로 형성하거나 재생 목표를 위한 다른 전략으로 탐색한다.
HER를 오프폴리시 RL과 통합하기 위한 알고리즘 설명(Algorithm 1)을 제공한다.
다양한 목표 샘플링 전략이 학습에 미치는 영향을 분석한다(예: 최종, 미래, 에피소드, 임의).

실험 결과

연구 질문

RQ1히indsight 재생이 오프폴리시 RL에서 희소하고 이진 보상으로부터 효과적으로 학습할 수 있는가?
RQ2대체 목표로 궤적을 재생하면 다중 목표 조작 작업에 대한 학습이 가능해지는가?
RQ3재생을 위한 추가 목표를 선택하는 전략 중 학습 효율성을 극대화하는 전략은 무엇인가?
RQ4HER가 시뮬레이션에서 물리 로봇으로의 전달을 미세 조정 없이 가능하게 하는가?

주요 결과

DERPG(DPG)은 HER와 함께 푸시, 미끄러짐, 픽앤플레이와 같은 작업을 표준 RL이 실패하는 경우에도 해결한다.
HER는 희소 보상에서도 효과를 유지하며 테스트된 과제에서 보상 형성의 대안보다 우수한 성능을 낸다.
미래/에피소드/부분 미래 목표를 재생에 사용하는 것이 특히 미끄러짐 작업에서 더 나은 성능을 낸다.
시뮬레이션에서 학습된 정책이 실제 Fetch 로봇에 미세 조정 없이 배치될 수 있으며 재학습 중 관찰 노이즈를 추가한 경우에 한한다.
이러한 작업들에서 보상 형성은 성능을 향상시키지 못했다.
다중 목표로의 훈련은 한 목표만 관심이더라도 학습 속도를 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.