Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-step Off-policy Learning Without Importance Sampling Ratios

Ashique Rupam Mahmood, Huizhen Yu|arXiv (Cornell University)|2017. 02. 09.
Machine Learning and Algorithms참고 문헌 19인용 수 22
한 줄 요약

이 논문은 함수 근사와 함께 다중단계 학습에서 중요도 샘플링 비율을 제거하기 위해 행동에 의존하는 부트스트랩 기법을 사용하는, 모델에 종속되지 않은 오프-폴리시 시간차 학습 알고리즘인 ABQ(ζ)를 소개한다. 행동별로 부트스트랩을 조절하고 이중 시간 척도 기반 경사 하강 업데이트를 활용함으로써 ABQ는 안정적이고 변동성이 낮은 가치 함수 추정을 달성하며, 도전적인 오프-폴리시 작업에서 최신 기술을 능가한다.

ABSTRACT

To estimate the value functions of policies from exploratory data, most model-free off-policy algorithms rely on importance sampling, where the use of importance sampling ratios often leads to estimates with severe variance. It is thus desirable to learn off-policy without using the ratios. However, such an algorithm does not exist for multi-step learning with function approximation. In this paper, we introduce the first such algorithm based on temporal-difference (TD) learning updates. We show that an explicit use of importance sampling ratios can be eliminated by varying the amount of bootstrapping in TD updates in an action-dependent manner. Our new algorithm achieves stability using a two-timescale gradient-based TD update. A prior algorithm based on lookup table representation called Tree Backup can also be retrieved using action-dependent bootstrapping, becoming a special case of our algorithm. In two challenging off-policy tasks, we demonstrate that our algorithm is stable, effectively avoids the large variance issue, and can perform substantially better than its state-of-the-art counterpart.

연구 동기 및 목표

  • 중요도 샘플링 비율로 인해 발생하는 다중단계 오프-폴리시 시간차 학습에서의 높은 변동성 문제를 해결하기 위해.
  • 중요도 샘플링 비율의 명시적 사용을 피하는 함수 근사 기반 모델에 종속되지 않은 알고리즘을 개발하기 위해.
  • Tree Backup와 Retrace와 같은 기존 알고리즘들을 체계적인 행동에 의존하는 부트스트랩 프레임워크 아래 통합하고 일반화하기 위해.
  • 중요도 비율 보정에 의존하지 않고 오프-폴리시 환경에서 안정적이고 변동성이 낮은 가치 함수 추정을 달성하기 위해.
  • 중요도 샘플링의 불안정성과 변동성 없이 오프-폴리시 함수 근사에서 효과적인 다중단계 학습을 가능하게 하기 위해.

제안 방법

  • 행동에 의존하는 부트스트랩 기법을 도입하여, 부트스트랩 파라미터를 상태-행동 쌍별로 다르게 조절함으로써 중요도 샘플링 비율의 필요성을 제거한다.
  • 안정성을 보장하기 위해 가치 함수 업데이트와 유효성 추적 업데이트를 분리하는 이중 시간 척도 기반 경사 하강 업데이트를 제안한다.
  • 유효성 추적에 행동에 의존하는 요소 νζ,t = ζ·min(1, ρt)를 사용하여 ABQ(ζ) 알고리즘을 유도한다. 여기서 ρt는 중요도 샘플링 비율이다.
  • 유효성 추적 업데이트를 재구성하여 행동에 의존하는 부트스트랩 요소를 통합함으로써 변동성 감소를 달성하면서도 다중단계 학습을 유지한다.
  • ABQ(ζ)가 타블루러 표현을 사용하고 경사 보정을 제거할 경우 Tree Backup으로 간주될 수 있음을 보이며, 특정 파rameter 설정 하에서 Retrace로 복원됨을 보여준다.
  • 확률적 근사 이론을 활용하여 감소하거나 일정한 단계 크기 하에서 수렴성을 지원함으로써 이론적 안정성을 확보한다.

실험 결과

연구 질문

  • RQ1함수 근사와 함께 중요한도 샘플링 비율을 명시적으로 사용하지 않고도 다중단계 오프-폴리시 학습을 달성할 수 있는가?
  • RQ2부트스트랩을 어떻게 행동에 의존적으로 만들 수 있을까? 이는 변동성을 줄이고 다중단계 학습 능력을 유지하는 데 기여할 수 있는가?
  • RQ3기존의 알고리즘들인 Tree Backup과 Retrace를 일반화하는 안정적이고 변동성이 낮은 오프-폴리시 알고리즘을 유도할 수 있는가?
  • RQ4이중 시간 척도 기반 경사 하강 업데이트는 중요도 샘플링 없이 학습을 안정화시키는 데 어떤 역할을 하는가?
  • RQ5행동에 의존하는 부트스트랩은 높은 변동성 환경에서 최신 기술의 오프-폴리시 알고리즘보다 더 우수한 성능을 달성할 수 있는가?

주요 결과

  • ABQ(ζ)는 함수 근사와 함께 다중단계 오프-폴리시 학습에서 중요도 샘플링 비율의 사용을 성공적으로 제거하여 안정적이고 변동성이 낮은 추정을 달성한다.
  • 두 가지 도전적인 오프-폴리시 작업에서 최신 기술을 능가하는 성능을 보이며 안정성과 성능 향상을 입증한다.
  • 탭류러 표현을 사용하고 경사 보정을 제거할 경우 ABQ(ζ)는 Tree Backup의 특수한 경우로 일반화된다.
  • 특정 파rameter 설정 하에서 AB-Trace 알고리즘의 특수한 경우로 Retrace를 복원할 수 있으며, 이는 함수 근사 적용 가능성을 확장한다.
  • 행동에 의존하는 부트스트랩 메커니즘은 중요도 샘플링 비율로 인한 변동성을 효과적으로 완화하면서도 다중단계 학습의 이점을 유지한다.
  • 이중 시간 척도 기반 경사 하강 업데이트로 인해 수렴성과 안정성이 보장되어 중요도 샘플링 보정에 의존하지 않는 신뢰할 수 있는 학습이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.