QUICK REVIEW

[논문 리뷰] Diversity-based Trajectory and Goal Selection with Hindsight Experience Replay

Tianhong Dai, Hengyan Liu|arXiv (Cornell University)|2021. 08. 17.

Reinforcement Learning in Robotics참고 문헌 42인용 수 11

한 줄 요약

이 논문은 희망 경험 재생(HER)을 기반으로 한 다각도적 궤적 및 목표 선택 기반 강화학습(DTGSH)을 제안한다. 이 방법은 목표 상태의 다양성을 고려해 경험을 재생할 때 더 유용한 경험을 우선순위로 선별함으로써 표본 효율성을 향상시킨다. 이는 궤적의 다양성에 대해 결정성 점진적 프로세스(DPP)를 사용하고, 목표 상태의 다양성에 대해 k-DPP를 적용하여 희망적 재라벨링을 수행한다. 다섯 가지 로봇 조작 작업에서 평가한 결과, 도메인 특화 지식이나 커리큘럼 튜닝 없이도 최신 기법인 HER, HEBP, CHER보다 더 빠른 수렴 속도와 높은 최종 성능을 달성하였다.

ABSTRACT

Hindsight experience replay (HER) is a goal relabelling technique typically used with off-policy deep reinforcement learning algorithms to solve goal-oriented tasks; it is well suited to robotic manipulation tasks that deliver only sparse rewards. In HER, both trajectories and transitions are sampled uniformly for training. However, not all of the agent's experiences contribute equally to training, and so naive uniform sampling may lead to inefficient learning. In this paper, we propose diversity-based trajectory and goal selection with HER (DTGSH). Firstly, trajectories are sampled according to the diversity of the goal states as modelled by determinantal point processes (DPPs). Secondly, transitions with diverse goal states are selected from the trajectories by using k-DPPs. We evaluate DTGSH on five challenging robotic manipulation tasks in simulated robot environments, where we show that our method can learn more quickly and reach higher performance than other state-of-the-art approaches on all tasks.

연구 동기 및 목표

희망 경험 재생(HER)에서 균일한 샘플링의 비효율성 문제를 해결하기 위해, 모든 경험들이 학습에 동일하게 기여하지는 않는다는 점을 다루기 위함.
특히 로봇 조작 작업에서 희박 보상 환경 하에서 목표 지향적 딥 강화학습의 학습 효율성을 향상시키기 위함.
도메인 특화 지식이나 커리큘럼 설계에 의존하지 않고 궤적과 목표 상태의 다양성을 기반으로 선택하는 방법을 개발하기 위함.
DPP를 통한 다양성 기반 샘플링이 균일하거나 히우리스틱 샘플링 전략보다 더 빠른 수렴 속도와 높은 성능을 낼 수 있음을 입증하기 위함.

제안 방법

목표 상태의 다양성을 기반으로 DPP를 사용해 재생할 궤적을 선별하며, 목표 임베딩에서 유도된 커널 행렬을 통해 부분집합의 다양성을 모델링한다.
선택된 궤적 내에서, 희망적 재라벨링을 위한 전이 상태의 목표 상태 간 다양성을 확보하기 위해 k-DPP를 사용해 전이 상태를 샘플링한다.
DDPG와 같은 오프-폴리시 딥 강화학습 알고리즘과 통합되며, 희망적 재라벨링을 통해 목표를 달성한 목표로 바꿔 밀도 높은 양의 보상을 생성한다.
DPP 커널 행렬은 목표 상태의 특징 벡터에서 유도되며, 높은 행렬식 값은 더 다양하고 직교적인 목표 집합을 나타낸다.
목표 공간의 의미적 지식이나 수동적 커리큘럼 설계에 의존하지 않고, 목표 상태의 기하학적 다양성에만 기반한다.
학습 중에는 DPP 기반 우선순위에 따라 m개의 다각도적 궤적을 샘플링하고, 각 미니배치에서 k개의 다각도적 전이 상태를 k-DPP를 사용해 선별한다.

실험 결과

연구 질문

RQ1DPP를 활용한 다양성 기반 궤적 선택이 희박 보상 환경에서 목표 지향적 강화학습의 학습 효율성을 향상시킬 수 있는가?
RQ2희망적 재라벨링을 위한 다각도적 목표 상태 선택이 균일하거나 거리 기반 샘플링 전략보다 더 빠른 수렴 속도와 높은 성능을 낼 수 있는가?
RQ3목표 상태의 다양성에만 기반한 방법이 목표 공간의 의미적 지식이나 커리큘럼 하이퍼파라미터가 필요한 기존 방법보다 우수한 성능을 낼 수 있는가?
RQ4다양한 궤적 샘플링 길이와 후보 목표 집합 크기에서 DTGSH의 성능는 어떻게 변화하는가?

주요 결과

FetchPush-v1에서 DTGSH는 최종 평균 성공률 1.00±0.00을 달성하여 DDPG+HER(1.00±0.00), DDPG+HEBP(1.00±0.00), DDPG+CHER(1.00±0.00)를 초월했으며, 더 빠른 수렴 속도를 보였다.
FetchPickAndPlace-v1에서 DTGSH는 성공률 0.94±0.01을 기록하여 DDPG+HER(0.89±0.03), DDPG+HEBP(0.91±0.03), DDPG+CHER(0.91±0.04)를 뛰어넘었다.
더 복잡한 HandManipulateEggFull-v0 환경에서는 DTGSH가 0.17±0.03의 성공률을 기록하여 DDPG+HER(0.11±0.01), DDPG+HEBP(0.14±0.02), DDPG+CHER(0.15±0.01)를 초월했다.
단절 실험을 통해 다양성 기반 궤적 선택(DTSH)과 다양성 기반 목표 선택(DGSH) 모두가 중요한 기여를 하며, 두 단계를 모두 통합한 DTGSH가 가장 뛰어난 성능을 보였다.
하이퍼파라미터 선택에 대해 뛰어난 내성성을 보였으며, b=2(부분 궤적 길이)와 m=100(후보 목표 집합 크기)에서 최적의 성능를 기록했고, 복잡한 환경에서는 m이 커질수록 성능이 저하되었다.
Push 작업에서 DTGSH의 학습 시간은 1시간 52분 30초로, CHER(3시간 2분 18초)보다 훨씬 빠르며, HER(55분 8초)보다 略로 느렸다. 이는 효율성과 성능 사이의 유리한 트레이드오��을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.