QUICK REVIEW

[논문 리뷰] On Learning Intrinsic Rewards for Policy Gradient Methods

Zeyu Zheng, Junhyuk Oh|arXiv (Cornell University)|2018. 04. 17.

Reinforcement Learning in Robotics참고 문헌 21인용 수 33

한 줄 요약

이 논문은 정책 그래เดียน트 에이전트가 희박 보상 환경에서 학습 효율을 향상시킬 수 있도록, 매개변수화된 내재 보상 함수를 학습하기 위한 새로운 확률적 경사 하강 방법인 LIRPG를 제안한다. 이 방법은 외재적 성능을 최대화하도록 내재 보상을 훈련시켜, 테스트한 5개의 MuJoCo 도메인 중 4개와 모든 15개의 Atari 게임에서 외재적 보상 전용 및 라이브 보너스 기반선보다 뚜렷한 성능 향상을 보였다.

ABSTRACT

In many sequential decision making tasks, it is challenging to design reward functions that help an RL agent efficiently learn behavior that is considered good by the agent designer. A number of different formulations of the reward-design problem, or close variants thereof, have been proposed in the literature. In this paper we build on the Optimal Rewards Framework of Singh et.al. that defines the optimal intrinsic reward function as one that when used by an RL agent achieves behavior that optimizes the task-specifying or extrinsic reward function. Previous work in this framework has shown how good intrinsic reward functions can be learned for lookahead search based planning agents. Whether it is possible to learn intrinsic reward functions for learning agents remains an open problem. In this paper we derive a novel algorithm for learning intrinsic rewards for policy-gradient based learning agents. We compare the performance of an augmented agent that uses our algorithm to provide additive intrinsic rewards to an A2C-based policy learner (for Atari games) and a PPO-based policy learner (for Mujoco domains) with a baseline agent that uses the same policy learners but with only extrinsic rewards. Our results show improved performance on most but not all of the domains.

연구 동기 및 목표

외재적 보상이 희박하거나 모호한 희박 보상 또는 복잡한 순차적 결정 문제에서 효과적인 보상 함수 설계의 과제를 해결한다.
수동으로 설계된 보너스나 고정된 함수 형태에 의존하는 전통적인 보상 형식화 및 내재 동기화 방법의 한계를 극복한다.
보상 계획이나 외부 감독 없이도, 정책 그래디언트 학습을 향상시키는 내재 보상 함수를 학습할 수 있는 확장 가능하고 종단 간(end-to-end)인 방법을 개발한다.
계산 및 표현 제약 조건 하에서도 외재 수익을 최대화하도록 최적화된 내재 보상을 학습시켜 정책 그래디언트 에이전트가 향상된 성능을 달성하도록 한다.

제안 방법

내재 보상 학습 문제를 이중 최적화 문제로 공식화한다: 정책은 외재적 보상과 내재 보상을 합한 것을 최대화하도록 훈련되며, 내재 보상 매개변수는 외재 성능 향상을 위해 업데이트된다.
정책 그래디언트의 미분 가능한 근사치를 통해 정책 매개변수와 내재 보상 매개변수를 동시에 최적화하기 위해 확률적 경사 하강법을 사용한다.
내재 보상 모듈을 메타학습 목표를 통해 훈련시킨다: 내재 보상은 정책이 달성하는 기대 외재 수익을 최대화하도록 업데이트된다.
A2C 및 PPO 에이전트에 이 방법을 적용하며, 기반선과 증강된 에이전트 간에 공통된 아키텍처와 하이퍼파라미터를 사용하여 공정한 비교를 확보한다.
MuJoCo 환경에서 희박한 피드백을 시뮬레이션하기 위해 지연 보상 메커니즘을 도입하여 학습 과제의 난이도를 높인다.
내재 보상만을 사용하여 정책을 훈련시키는 분석 실험을 통해 학습된 내재 보상이 복잡한 행동을 이끄는 데 충분한 구조를 담고 있는지 평가한다.

실험 결과

연구 질문

RQ1학습된 내재 보상 함수가 희박 보상 환경에서 정책 그래디언트 에이전트의 샘플 효율성과 최종 성능을 뚜렷이 향상시킬 수 있는가?
RQ2기울기 기반 최적화를 통해 내재 보상을 학습하는 것이, Atari 및 MuJoCo 도메인 전반에서 고정된 내재 보너스(예: '라이브 보너스')보다 우월한가?
RQ3외재적 보상 신호 없이도 학습된 내재 보상만으로도 정책을 효과적으로 훈련시킬 수 있으며, 경쟁 가능한 성능을 달성할 수 있는가?
RQ4이러한 방법이 다양한 정도의 희박성과 복잡성을 지닌 환경에서 얼마나 강건한가?
RQ5내재 보상 함수가 외재 보상의 기저 구조를 얼마나 잘 포착하는가? 이는 단순한 탐색 보너스를 넘어서 일반화를 가능하게 하는가?

주요 결과

LIRPG는 A2C를 사용하여 15개의 Atari 게임에서 학습 성능을 향상시켰으며, 테스트한 모든 환경에서 일관된 성과 향상을 보였다.
MuJoCo 도메인에서, 외재 보상 전용 PPO 기반선 대비 20단계 지연 보상을 적용한 상황에서 5개 환경 중 4개(허퍼, 할프체타, 워커2d, 앤티)에서 성능이 뛰어났다.
라이브 보너스 기반선 대비 5개 MuJoCo 도메인 중 4개에서 성능이 뛰어났으며, 할프체타에서는 유사한 성능를 기록했다.
분석 실험에서, 내재 보상만을 사용해 정책을 훈련시킨 결과, 5개 MuJoCo 환경 중 3개에서 내재 및 외재 보상의 혼합 훈련과 유사한 성능를 달성했다.
허퍼에서는 내재 보상 전용 훈련이 혼합 훈련보다 성능이 열 劣했지만, 라이브 보너스 전용 훈련보다는 여전히 뛰어나, 내재 보상이 단순 생존 보다 더 많은 것을 포착하고 있음을 시사했다.
결과적으로, 학습된 내재 보상은 단순한 탐색 보너스를 넘어서 더 복잡하고 임무 관련된 구조를 인코딩하고 있음을 시사하며, 외재 피드백 없이도 효과적인 학습이 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.