QUICK REVIEW

[논문 리뷰] Generalized hindsight for reinforcement learning

Alexander C. Li, Lerrel Pinto|arXiv (Cornell University)|2020. 02. 01.

Advanced Multi-Objective Optimization Algorithms인용 수 2

한 줄 요약

이 논문은 다중 작업 강화 학습에서 샘플 효율성을 향상시키기 위해 한 작업에서의 행동을 다른 더 적합한 작업으로 재라벨링하는 일반화된 후회 기반 기법인 Generalized Hindsight를 소개한다. 보다 낮은 보상이 기록된 궤적을 그보다 더 최적일 수 있는 다른 작업으로 재할당함으로써, 이 방법은 오프-폴리시 강화 학습 에이전트가 이전에 버려졌던 데이터를 재사용할 수 있게 하여, 주행 및 조작 작업 전반에서 학습 효율을 크게 향상시킨다.

ABSTRACT

One of the key reasons for the high sample complexity in reinforcement learning (RL) is the inability to transfer knowledge from one task to another. In standard multi-task RL settings, low-reward data collected while trying to solve one task provides little to no signal for solving that particular task and is hence effectively wasted. However, we argue that this data, which is uninformative for one task, is likely a rich source of information for other tasks. To leverage this insight and efficiently reuse data, we present Generalized Hindsight: an approximate inverse reinforcement learning technique for relabeling behaviors with the right tasks. Intuitively, given a behavior generated under one task, Generalized Hindsight returns a different task that the behavior is better suited for. Then, the behavior is relabeled with this new task before being used by an off-policy RL optimizer. Compared to standard relabeling techniques, Generalized Hindsight provides a substantially more efficient reuse of samples, which we empirically demonstrate on a suite of multi-task navigation and manipulation tasks. Videos and code can be accessed here: this https URL.

연구 동기 및 목표

작업 간 지식 전이가 불가능하여 발생하는 강화 학습의 높은 샘플 복잡도 문제를 해결하기 위해.
특정 작업에 대해 낮은 보상을 기록한 궤적들이 일반적으로 폐기되는 다중 작업 강화 학습 환경에서의 데이터 낭비를 줄이기 위해.
동일한 행동이 다른 작업에서 더 최적일 수 있음을 식별함으로써 궤적의 효율적 재사용을 가능하게 하기 위해.
다중 작업 환경에서 더 나은 데이터 활용을 통해 오프-폴리시 강화 학습 알고리즘의 성능을 향상시키기 위해.

제안 방법

주어진 행동이 원래 의도한 작업과 다른 작업에서 최적일 수 있도록 보상 함수를 추론하기 위해 역강화 학습을 적용한다.
특정 작업 하에서 생성된 행동을 바탕으로, 그 행동이 더 최적일 가능성이 높은 새로운 작업을 식별한다.
그 행동은 이 새로운 작업으로 재라벨링되어 오프-폴리시 학습을 위한 리PLAY 버퍼에 통합된다.
이 방법은 한 작업에 대해 최적성이 떨어지는 궤적이 다른 작업에선 매우 효과적일 수 있음을 활용하여 보다 넓은 범위의 데이터 재사용을 가능하게 한다.
각 행동에 대해 가장 적합한 대체 작업을 탐색하기 위해 미분 가능하거나 최적화 기반의 메커니즘을 사용한다.
재라벨링된 데이터는 SAC나 DQN과 같은 표준 오프-폴리시 강화 학습 알고리즘에 사용되어 샘플 효율성을 향상시킨다.

실험 결과

연구 질문

RQ1한 작업에 대해 최적성이 떨어지는 행동들이 다른 작업으로 효과적으로 재사용될 수 있는가?
RQ2다중 작업 강화 학습에서 표준 후회 기반 재라벨링과 비교해, 대체 작업으로 궤적을 재라벨링하는 방법은 어떤가?
RQ3Generalized Hindsight는 주행 및 조작 작업에서 샘플 복잡도를 어느 정도 감소시킬 수 있는가?
RQ4이 방법은 작업별로 특수 설계가 필요 없이 다양한 작업에서 성능 향상을 이끌 수 있는가?

주요 결과

Generalized Hindsight는 이전에 버려졌던 낮은 보상 궤적들을 더 적합한 작업으로 재라벨링함으로써 상당한 재사용을 가능하게 한다.
표준 재라벨링 기법과 비교해, 다중 작업 주행 및 조작 환경에서 샘플 효율성이 크게 향상된다.
실험 결과, 대체 작업에서 재라벨링된 데이터를 사용할 경우 더 빠른 수렴과 향상된 최종 성능이 관찰된다.
이 방법은 더 넓은 분포의 유용한 행동을 다양한 작업 간에 활용함으로써 베이스라인 후회 기반 재라벨링을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.