QUICK REVIEW

[논문 리뷰] Hybrid Reward Architecture for Reinforcement Learning

Harm van Seijen, Mehdi Fatemi|arXiv (Cornell University)|2017. 06. 13.

Reinforcement Learning in Robotics참고 문헌 64인용 수 188

한 줄 요약

논문은 Hybrid Reward Architecture (HRA)를 도입하여 환경 보상을 여러 구성요소로 분해하고 각 구성요소에 대해 별도의 가치 함수를 학습한 후 이를 합산해 Ms. Pac-Man과 같은 복합 도메인에서 학습을 개선하고 인간 수준을 상회하는 성능을 달성한다.

ABSTRACT

One of the main challenges in reinforcement learning (RL) is generalisation. In typical deep RL methods this is achieved by approximating the optimal value function with a low-dimensional representation using a deep network. While this approach works well in many domains, in domains where the optimal value function cannot easily be reduced to a low-dimensional representation, learning can be very slow and unstable. This paper contributes towards tackling such challenging domains, by proposing a new method, called Hybrid Reward Architecture (HRA). HRA takes as input a decomposed reward function and learns a separate value function for each component reward function. Because each component typically only depends on a subset of all features, the corresponding value function can be approximated more easily by a low-dimensional representation, enabling more effective learning. We demonstrate HRA on a toy-problem and the Atari game Ms. Pac-Man, where HRA achieves above-human performance.

연구 동기 및 목표

최적 가치 함수가 저차원 표현으로 근사되기 어려운 고도로 복잡한 RL 도메인에서 학습을 자극한다.
환경 보상을 여러 구성요소 보상으로 분해하고 각 구성요소를 별도 에이전트(헤드)가 학습하도록 한다.
구성요소 가치 함수를 합산하는 것이 단일 헤드 기반 벤치마크에 비해 우수한 정책과 더 빠른 학습을 낳는지 입증한다.

제안 방법

환경 보상 R_env를 k=1..n에 대해 n개의 구성요소 보상 R_k(s,a,s')로 분해한다 (Eq. 4).
각 구성요소 보상에 대해 공통 네트워크를 공유하지만 Q_k(s,a;θ)를 나타내는 여러 헤드를 갖는 별도의 RL 에이전트를 학습한다.
헤드를 합산하여 Q_HRA(s,a;θ) = sum_k Q_k(s,a;θ) (Eq. 5)를 형성한다.
각 헤드를 고유한 타깃 y_k,i = R_k(s,a,s') + γ max_a' Q_k(s',a';θ_{i-1}) (Eq. 7)으로 업데이트한다.
학습 타깃 탐색: Q_env* (기본값, 일관성 유지) 대 Q_HRA^ν (반일관성, 무작위 정책으로 학습된 기대 SARSA를 통한) (Eq. 8).
선택적으로 도메인 지식(특징 필터링, 종료 상태 처리, 의사 보상 등)을 도입하여 학습 효율을 높일 수 있다(Section 3.2).

실험 결과

연구 질문

RQ1환경 보상을 여러 간단한 구성요소로 분해하고 별도 가치 함수를 학습하는 것이 hard RL 도메인에서 학습 속도를 높일 수 있는가?
RQ2구성요소 가치 함수를 합산하면 표준 단일 헤드 방법에 비해 경쟁력 있거나 우수한 정책이 산출되는가?
RQ3HRA가 toy 태스크와 Ms. Pac-Man과 같은 도전적인 Atari 게임에서 도메인 지식을 추가했을 때 어떤 성능을 보이는가?
RQ4학습을 안내하는 가장 효과적인 학습 타깃(Q_env* 대 Q_HRA^ν)은 무엇인가?
RQ5도메인 지식이 HRA 성능을 어떻게 더 향상시킬 수 있는가?

주요 결과

HRA는 과일 수집 태스크와 Ms. Pac-Man에서 DQN 벤치마크를 능가하며, 특히 도메인 지식을 활용할 때 성능이 더 나아진다.
Q_HRA^ν (무작위 정책 기반 타깃)를 사용하면 탐색 기반 도메인에서 학습을 돕는 반일관성 학습 타깃을 제공할 수 있다.
과일 태스크에서 도메인 지식(관련 없는 특징 제거, 종료 상태 식별, 의사 보상 사용)을 추가하면 큰 성능 향상을 보이며 표(tabular) 표현으로 거의 최적의 행동이 가능하다.
Ms. Pac-Man에서 보상 분해 및 GVF를 이용한 HRA는 고정 시작 및 임의 시작 평가 모두에서 A3C 벤치마크 및 인간 벤치마크를 크게 상회하는 점수를 얻으며, 인간 고점수를 넘겨 실행 기억 기반 보강으로 매우 높은 최대 점수에 도달하기도 한다.
HRA는 각 헤드당 상태 공간이 약 10^3인 많은 GVF를 생성해 확장시키므로 단일 조밀 표현이 어려운 경우에도 효과적으로 학습할 수 있다( Ms. Pac-Man ).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.