Skip to main content
QUICK REVIEW

[논문 리뷰] Safe and Efficient Off-Policy Reinforcement Learning

Rémi Munos, Thomas Stepleton|arXiv (Cornell University)|2016. 06. 08.
Reinforcement Learning in Robotics참고 문헌 22인용 수 93
한 줄 요약

이 논문은 나무 백업의 안정성과 리턴 기반 학습의 효율성을 결합한 새로운 이방향 강화학습 알고리즘인 Retrace(λ)를 소개한다. 이 알고리즘은 GLIE 가정이 필요 없이 최적의 Q-값 함수 Q*로의 저분산, 안정적인 수렴을 보장하며, 1989년 이래로 미해결 문제로 남아 있던 워킹스의 Q(λ)에 대한 수렴성을 증명한다. 방법은 임의의 행동 정책을 다룰 수 있도록 보정된 중요도 샘플링을 사용하며, 동시에 정책 기반 데이터를 효율적으로 활용한다.

ABSTRACT

In this work, we take a fresh look at some old and new algorithms for off-policy, return-based reinforcement learning. Expressing these in a common form, we derive a novel algorithm, Retrace($λ$), with three desired properties: (1) it has low variance; (2) it safely uses samples collected from any behaviour policy, whatever its degree of "off-policyness"; and (3) it is efficient as it makes the best use of samples collected from near on-policy behaviour policies. We analyze the contractive nature of the related operator under both off-policy policy evaluation and control settings and derive online sample-based algorithms. We believe this is the first return-based off-policy control algorithm converging a.s. to $Q^*$ without the GLIE assumption (Greedy in the Limit with Infinite Exploration). As a corollary, we prove the convergence of Watkins' Q($λ$), which was an open problem since 1989. We illustrate the benefits of Retrace($λ$) on a standard suite of Atari 2600 games.

연구 동기 및 목표

  • 리턴 기반 학습(저분산, 함수 근사와 잘 맞음)과 부트스트래핑(이방향 데이터에 대해 효율적) 사이의 근본적 트레이드오���을 해결하고, 두 장점을 모두 결합한다.
  • 행동 정책이 임의일 경우에도 안정적인 학습이 가능하게 하여, 높은 이방향성으로 인한 발산을 방지한다.
  • 경험 재생에서의 전체 리턴을 활용하여, 행동 정책과 타겟 정책이 유사할 경우 높은 샘플 효율성을 확보한다.
  • 이방향 제어에서 GLIE 가정이 필요 없도록 하여 무한한 탐색 없이도 수렴 가능하게 한다.
  • 워킹스의 Q(λ)에 대한 이론적 수렴성 증명을 제공한다 — 강화학습 분야에서 오랫동안 미해결 문제로 남아 있던 문제이다.

제안 방법

  • λ-리턴과 중요도 샘플링을 기반으로 한 공통 수학적 프레임워크를 사용해 이방향 리턴 기반 알고리즘을 정형화한다.
  • 행동 정책이 임의일 경우에도 안정적이고 수렴 가능한 Retrace(λ)를 제안하며, 중요도 샘플링 비율을 min(1, π(a|x)/μ(a|x))로 캡처하여 학습을 안정화한다.
  • Retrace 연산자를 온라인, 샘플 기반 학습 알고리즘에 통합하여 경험 재생 및 딥 강화학습에 적합하게 한다.
  • 정책 평가 및 제어를 위한 수축 연산자를 유도하며, GLIE 가정 없이도 Q*로 거의 확실히 수렴함을 증명한다.
  • λ-리턴 확장을 통해 부트스트래핑와 몬테카를로 리턴 추정 간 균형을 맞춰, 다양한 설정에서 안정적이고도灵活한 학습을 가능하게 한다.
  • 딥 Q-네트워크를 야심 2600 환경에 적용하여, 다양한 게임에서 견고한 성능을 보여준다.

실험 결과

연구 질문

  • RQ1행동 정책이 타겟 정책에서 멀어도 안정적이고 수렴 가능한 이방향 리턴 기반 강화학습 알고리즘을 어떻게 설계할 수 있는가?
  • RQ2기존 리턴 기반 알고리즘에 어떤 수정이 필요하여, GLIE 가정 없이도 최적의 Q-함수 Q*로 수렴하도록 보장할 수 있는가?
  • RQ3Retrace(λ) 알고리즘이 근접한 온정책 설정에서는 높은 샘플 효율성을, 높은 이방향성 설정에서는 뛰어난 강인성을 동시에 달성할 수 있는가?
  • RQ4Retrace(λ)는 워킹스의 Q(λ) 알고리즘에 대한 수렴성 증명이라는 오랫동안 열려 있던 문제를 해결할 수 있는가?
  • RQ5Retrace(λ)는 경험 재생과 함수 근사를 사용하는 딥 강화학습 환경에 효과적으로 적용될 수 있는가?

주요 결과

  • Retrace(λ)는 GLIE 가정 없이도 거의 확실히 최적의 Q-값 함수 Q*로 수렴하는 최초의 온라인, 리턴 기반, 이방향 제어 알고리즘이다.
  • 중요도 샘플링 비율을 1로 캡처함으로써 저분산, 안정적인 학습을 달성하며, 이는 매우 이방향적인 행동 정책일 경우에도 안정성을 보장한다.
  • 야심 2600 스위트에서의 실험 결과, Retrace(λ)는 Tree-backup(λ)와 표준 DQN을 모두 능가했으며, 여러 게임에서 평균 점수도 높았다.
  • Atlantis, Space Invaders, Video Pinball 등의 게임에서 뛰어난 성능을 보였으며, 최종 점수는 각각 2,110,401, 6,096, 228,283로, DQN과 Tree-backup를 크게 앞섰다.
  • 논문은 워킹스의 Q(λ)가 거의 확실히 Q*로 수렴함을 증명하며, 1989년 이후로 지속된 강화학습 분야의 열린 문제를 해결했다.
  • Retrace(λ)는 부트스트래핑과 리턴 추정 간의 트레이드오프를 효과적으로 균형 잡아, 근접한 온정책 환경에서는 효율적이며, 높은 이방향성 환경에서는 강인하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.