QUICK REVIEW

[논문 리뷰] Multi-step Off-policy Learning Without Importance Sampling Ratios

Ashique Rupam Mahmood, Huizhen Yu|arXiv (Cornell University)|2017. 02. 09.

Machine Learning and Algorithms참고 문헌 19인용 수 22

한 줄 요약

이 논문은 함수 근사와 함께 다중단계 학습에서 중요도 샘플링 비율을 제거하기 위해 행동에 의존하는 부트스트랩 기법을 사용하는, 모델에 종속되지 않은 오프-폴리시 시간차 학습 알고리즘인 ABQ(ζ)를 소개한다. 행동별로 부트스트랩을 조절하고 이중 시간 척도 기반 경사 하강 업데이트를 활용함으로써 ABQ는 안정적이고 변동성이 낮은 가치 함수 추정을 달성하며, 도전적인 오프-폴리시 작업에서 최신 기술을 능가한다.

ABSTRACT

To estimate the value functions of policies from exploratory data, most model-free off-policy algorithms rely on importance sampling, where the use of importance sampling ratios often leads to estimates with severe variance. It is thus desirable to learn off-policy without using the ratios. However, such an algorithm does not exist for multi-step learning with function approximation. In this paper, we introduce the first such algorithm based on temporal-difference (TD) learning updates. We show that an explicit use of importance sampling ratios can be eliminated by varying the amount of bootstrapping in TD updates in an action-dependent manner. Our new algorithm achieves stability using a two-timescale gradient-based TD update. A prior algorithm based on lookup table representation called Tree Backup can also be retrieved using action-dependent bootstrapping, becoming a special case of our algorithm. In two challenging off-policy tasks, we demonstrate that our algorithm is stable, effectively avoids the large variance issue, and can perform substantially better than its state-of-the-art counterpart.

연구 동기 및 목표

중요도 샘플링 비율로 인해 발생하는 다중단계 오프-폴리시 시간차 학습에서의 높은 변동성 문제를 해결하기 위해.
중요도 샘플링 비율의 명시적 사용을 피하는 함수 근사 기반 모델에 종속되지 않은 알고리즘을 개발하기 위해.
Tree Backup와 Retrace와 같은 기존 알고리즘들을 체계적인 행동에 의존하는 부트스트랩 프레임워크 아래 통합하고 일반화하기 위해.
중요도 비율 보정에 의존하지 않고 오프-폴리시 환경에서 안정적이고 변동성이 낮은 가치 함수 추정을 달성하기 위해.
중요도 샘플링의 불안정성과 변동성 없이 오프-폴리시 함수 근사에서 효과적인 다중단계 학습을 가능하게 하기 위해.

제안 방법

행동에 의존하는 부트스트랩 기법을 도입하여, 부트스트랩 파라미터를 상태-행동 쌍별로 다르게 조절함으로써 중요도 샘플링 비율의 필요성을 제거한다.
안정성을 보장하기 위해 가치 함수 업데이트와 유효성 추적 업데이트를 분리하는 이중 시간 척도 기반 경사 하강 업데이트를 제안한다.
유효성 추적에 행동에 의존하는 요소 νζ,t = ζ·min(1, ρt)를 사용하여 ABQ(ζ) 알고리즘을 유도한다. 여기서 ρt는 중요도 샘플링 비율이다.
유효성 추적 업데이트를 재구성하여 행동에 의존하는 부트스트랩 요소를 통합함으로써 변동성 감소를 달성하면서도 다중단계 학습을 유지한다.
ABQ(ζ)가 타블루러 표현을 사용하고 경사 보정을 제거할 경우 Tree Backup으로 간주될 수 있음을 보이며, 특정 파rameter 설정 하에서 Retrace로 복원됨을 보여준다.
확률적 근사 이론을 활용하여 감소하거나 일정한 단계 크기 하에서 수렴성을 지원함으로써 이론적 안정성을 확보한다.

실험 결과

연구 질문

RQ1함수 근사와 함께 중요한도 샘플링 비율을 명시적으로 사용하지 않고도 다중단계 오프-폴리시 학습을 달성할 수 있는가?
RQ2부트스트랩을 어떻게 행동에 의존적으로 만들 수 있을까? 이는 변동성을 줄이고 다중단계 학습 능력을 유지하는 데 기여할 수 있는가?
RQ3기존의 알고리즘들인 Tree Backup과 Retrace를 일반화하는 안정적이고 변동성이 낮은 오프-폴리시 알고리즘을 유도할 수 있는가?
RQ4이중 시간 척도 기반 경사 하강 업데이트는 중요도 샘플링 없이 학습을 안정화시키는 데 어떤 역할을 하는가?
RQ5행동에 의존하는 부트스트랩은 높은 변동성 환경에서 최신 기술의 오프-폴리시 알고리즘보다 더 우수한 성능을 달성할 수 있는가?

주요 결과

ABQ(ζ)는 함수 근사와 함께 다중단계 오프-폴리시 학습에서 중요도 샘플링 비율의 사용을 성공적으로 제거하여 안정적이고 변동성이 낮은 추정을 달성한다.
두 가지 도전적인 오프-폴리시 작업에서 최신 기술을 능가하는 성능을 보이며 안정성과 성능 향상을 입증한다.
탭류러 표현을 사용하고 경사 보정을 제거할 경우 ABQ(ζ)는 Tree Backup의 특수한 경우로 일반화된다.
특정 파rameter 설정 하에서 AB-Trace 알고리즘의 특수한 경우로 Retrace를 복원할 수 있으며, 이는 함수 근사 적용 가능성을 확장한다.
행동에 의존하는 부트스트랩 메커니즘은 중요도 샘플링 비율로 인한 변동성을 효과적으로 완화하면서도 다중단계 학습의 이점을 유지한다.
이중 시간 척도 기반 경사 하강 업데이트로 인해 수렴성과 안정성이 보장되어 중요도 샘플링 보정에 의존하지 않는 신뢰할 수 있는 학습이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.