QUICK REVIEW

[논문 리뷰] Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning

Philip S. Thomas, Emma Brunskill|arXiv (Cornell University)|2016. 04. 04.

Reinforcement Learning in Robotics참고 문헌 21인용 수 74

한 줄 요약

이 논문은 평균 제곱 오차를 최소화하기 위해 가중 이중으로 안정적인(WDR) 추정기와 모델 기반 추정기를 블렌딩하는 메커니즘을 통해 새로운 오프-폴리시 정책 평가 알고리즘인 MAGIC를 소개한다. 오프-폴리시 j-단계 수익과 적응형 가중치를 활용함으로써, 특히 데이터가 적은 환경에서 이전 방법들에 비해 수개의 주기 어림으로 더 낮은 추정 오차를 달성한다.

ABSTRACT

In this paper we present a new way of predicting the performance of a reinforcement learning policy given historical data that may have been generated by a different policy. The ability to evaluate a policy from historical data is important for applications where the deployment of a bad policy can be dangerous or costly. We show empirically that our algorithm produces estimates that often have orders of magnitude lower mean squared error than existing methods---it makes more efficient use of the available data. Our new estimator is based on two advances: an extension of the doubly robust estimator (Jiang and Li, 2015), and a new way to mix between model based estimates and importance sampling based estimates.

연구 동기 및 목표

다른 행동 정책에서 수집된 역사적 데이터를 사용하여 강화 학습 정책을 정확하게 평가하는 데 도전하는 것.
특히 데이터가 부족한 상황에서 오프-폴리시 정책 평가의 평균 제곱 오차를 줄이는 것.
점진적 편향 감소에 의존하지 않고 평균 제곱 오차 최적화를 위한 강력한 일致성 추정기를 개발하는 것.
의미 있는 방식으로 중요도 샘플링과 모델 기반 추정을 융합함으로써 데이터 효율성을 향상시키는 것.

제안 방법

작은 제어된 편향을 도입함으로써 분산을 줄이는 가중 이중으로 안정적인(WDR) 추정기의 확장 기법을 제안한다.
의존성 샘플링과 모델 기반 추정을 학습된 블렌딩 계수를 통해 조합하여 평균 제곱 오차를 최소화하는, 의존성 샘플링과 모델의 블렌딩(BIM) 추정기를 도입한다.
WDR와 모델 기반 추정기(AM)를 BIM 프레임워크를 사용하여 조합하여 동적으로 성능이 더 우수한 성분을 선호하는 MAGIC 추정기를 개발한다.
모델 기반 성분에서 오프-폴리시 j-단계 수익을 사용하여 추정 정확도를 향상시키고 분산을 줄인다.
신뢰구간과 데이터 기반으로 추정된 블렌딩 파라미터(bn과 Ωn)를 활용하여 WDR과 모델 기반 추정 간의 적응적 균형을 유지한다.
WDR와 MAGIC 추정기가 강력히 일관성이 있음을 보장하는 이론적 조건을 수립하여, 충분한 데이터가 있을 경우 진짜 값으로 수렴함을 보장한다.

실험 결과

연구 질문

RQ1의존성 샘플링과 모델 기반 추정을 융합한 블렌딩 추정기는 기존 오프-폴리시 평가 방법보다 더 낮은 평균 제곱 오차를 달성할 수 있는가?
RQ2특히 데이터가 적은 환경에서 이중으로 안정적인 추정의 분산을 크게 증가시키지 않고 줄일 수 있는가?
RQ3다양한 추정기(예: WDR와 AM)를 최적의 방식으로 조합하여 오프-폴리시 평가에서 평균 제곱 오차를 최소화할 수 있는가?
RQ4모델 기반 성분에서 오프-폴리시 j-단계 수익을 사용할 경우, 전체 수익과 비교해 추정 정확도가 유의미하게 향상되는가?
RQ5다양한 환경에서 블렌딩된 MAGIC 추정기의 성능은 개별 성분(WDR, AM)과 이전 최고 수준의 방법들보다 뛰어나게 나타나는가?

주요 결과

MAGIC는 테스트된 모든 환경에서 기존 방법들인 DR, WDR, AM보다 수개의 주기 어림으로 더 낮은 평균 제곱 오차를 지속적으로 달성한다.
완전한 데이터가 있는 Hybrid 환경에서 MAGIC는 모든 이전 방법보다 2~3개 주기 어림으로 뛰어난 성능을 보이며, 블렌딩 메커니즘의 효과를 입증한다.
낮은 데이터 환경(예: 반값 데이터 설정)에서 MAGIC는 WDR과 AM을 크게 능가하며, 뛰어난 데이터 효율성을 보여준다.
MAGIC의 성능은 성능이 더 뛰어난 성분(WDR 또는 AM)을 거의 정확히 따라가지만, 두 성분이 동시에 더 많은 데이터로 빠르게 향상될 때는 약간의 지연이 발생하는 경우가 있다.
온-폴리시 수익만을 사용하는 MAGIC-B의 변종은 Hybrid 환경에서 MAGIC에 비해 한 주기 어림으로 떨어지며, 오프-폴리시 j-단계 수익의 중요성을 강조한다.
알고리즘이 강력한 일관성을 유지하며 데이터가 증가함에 따라 진짜 값으로 수렴함을 확인하여 이론적 보장을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.