QUICK REVIEW

[논문 리뷰] Safe and Efficient Off-Policy Reinforcement Learning

Rémi Munos, Thomas Stepleton|arXiv (Cornell University)|2016. 06. 08.

Reinforcement Learning in Robotics참고 문헌 22인용 수 93

한 줄 요약

이 논문은 나무 백업의 안정성과 리턴 기반 학습의 효율성을 결합한 새로운 이방향 강화학습 알고리즘인 Retrace(λ)를 소개한다. 이 알고리즘은 GLIE 가정이 필요 없이 최적의 Q-값 함수 Q*로의 저분산, 안정적인 수렴을 보장하며, 1989년 이래로 미해결 문제로 남아 있던 워킹스의 Q(λ)에 대한 수렴성을 증명한다. 방법은 임의의 행동 정책을 다룰 수 있도록 보정된 중요도 샘플링을 사용하며, 동시에 정책 기반 데이터를 효율적으로 활용한다.

ABSTRACT

In this work, we take a fresh look at some old and new algorithms for off-policy, return-based reinforcement learning. Expressing these in a common form, we derive a novel algorithm, Retrace($λ$), with three desired properties: (1) it has low variance; (2) it safely uses samples collected from any behaviour policy, whatever its degree of "off-policyness"; and (3) it is efficient as it makes the best use of samples collected from near on-policy behaviour policies. We analyze the contractive nature of the related operator under both off-policy policy evaluation and control settings and derive online sample-based algorithms. We believe this is the first return-based off-policy control algorithm converging a.s. to $Q^*$ without the GLIE assumption (Greedy in the Limit with Infinite Exploration). As a corollary, we prove the convergence of Watkins' Q($λ$), which was an open problem since 1989. We illustrate the benefits of Retrace($λ$) on a standard suite of Atari 2600 games.

연구 동기 및 목표

리턴 기반 학습(저분산, 함수 근사와 잘 맞음)과 부트스트래핑(이방향 데이터에 대해 효율적) 사이의 근본적 트레이드오��을 해결하고, 두 장점을 모두 결합한다.
행동 정책이 임의일 경우에도 안정적인 학습이 가능하게 하여, 높은 이방향성으로 인한 발산을 방지한다.
경험 재생에서의 전체 리턴을 활용하여, 행동 정책과 타겟 정책이 유사할 경우 높은 샘플 효율성을 확보한다.
이방향 제어에서 GLIE 가정이 필요 없도록 하여 무한한 탐색 없이도 수렴 가능하게 한다.
워킹스의 Q(λ)에 대한 이론적 수렴성 증명을 제공한다 — 강화학습 분야에서 오랫동안 미해결 문제로 남아 있던 문제이다.

제안 방법

λ-리턴과 중요도 샘플링을 기반으로 한 공통 수학적 프레임워크를 사용해 이방향 리턴 기반 알고리즘을 정형화한다.
행동 정책이 임의일 경우에도 안정적이고 수렴 가능한 Retrace(λ)를 제안하며, 중요도 샘플링 비율을 min(1, π(a|x)/μ(a|x))로 캡처하여 학습을 안정화한다.
Retrace 연산자를 온라인, 샘플 기반 학습 알고리즘에 통합하여 경험 재생 및 딥 강화학습에 적합하게 한다.
정책 평가 및 제어를 위한 수축 연산자를 유도하며, GLIE 가정 없이도 Q*로 거의 확실히 수렴함을 증명한다.
λ-리턴 확장을 통해 부트스트래핑와 몬테카를로 리턴 추정 간 균형을 맞춰, 다양한 설정에서 안정적이고도灵活한 학습을 가능하게 한다.
딥 Q-네트워크를 야심 2600 환경에 적용하여, 다양한 게임에서 견고한 성능을 보여준다.

실험 결과

연구 질문

RQ1행동 정책이 타겟 정책에서 멀어도 안정적이고 수렴 가능한 이방향 리턴 기반 강화학습 알고리즘을 어떻게 설계할 수 있는가?
RQ2기존 리턴 기반 알고리즘에 어떤 수정이 필요하여, GLIE 가정 없이도 최적의 Q-함수 Q*로 수렴하도록 보장할 수 있는가?
RQ3Retrace(λ) 알고리즘이 근접한 온정책 설정에서는 높은 샘플 효율성을, 높은 이방향성 설정에서는 뛰어난 강인성을 동시에 달성할 수 있는가?
RQ4Retrace(λ)는 워킹스의 Q(λ) 알고리즘에 대한 수렴성 증명이라는 오랫동안 열려 있던 문제를 해결할 수 있는가?
RQ5Retrace(λ)는 경험 재생과 함수 근사를 사용하는 딥 강화학습 환경에 효과적으로 적용될 수 있는가?

주요 결과

Retrace(λ)는 GLIE 가정 없이도 거의 확실히 최적의 Q-값 함수 Q*로 수렴하는 최초의 온라인, 리턴 기반, 이방향 제어 알고리즘이다.
중요도 샘플링 비율을 1로 캡처함으로써 저분산, 안정적인 학습을 달성하며, 이는 매우 이방향적인 행동 정책일 경우에도 안정성을 보장한다.
야심 2600 스위트에서의 실험 결과, Retrace(λ)는 Tree-backup(λ)와 표준 DQN을 모두 능가했으며, 여러 게임에서 평균 점수도 높았다.
Atlantis, Space Invaders, Video Pinball 등의 게임에서 뛰어난 성능을 보였으며, 최종 점수는 각각 2,110,401, 6,096, 228,283로, DQN과 Tree-backup를 크게 앞섰다.
논문은 워킹스의 Q(λ)가 거의 확실히 Q*로 수렴함을 증명하며, 1989년 이후로 지속된 강화학습 분야의 열린 문제를 해결했다.
Retrace(λ)는 부트스트래핑과 리턴 추정 간의 트레이드오프를 효과적으로 균형 잡아, 근접한 온정책 환경에서는 효율적이며, 높은 이방향성 환경에서는 강인하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.