QUICK REVIEW

[논문 리뷰] Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes

Nathan Kallus, Masatoshi Uehara|arXiv (Cornell University)|2019. 08. 22.

Advanced Causal Inference Techniques참고 문헌 61인용 수 49

한 줄 요약

이 논문은 Off-Policy Evaluation(OPE)에서 반매개변수 효율 경계치를 도출하고, 교차 분할 추정으로 q-함수 및 밀도 비율을 활용하는 이중 강화 학습(DRL)을 도입합니다. DRL은 일반적 조건 하에서 글로벌 효율성을 달성하고 이중 강건성을 가집니다.

ABSTRACT

Off-policy evaluation (OPE) in reinforcement learning allows one to evaluate novel decision policies without needing to conduct exploration, which is often costly or otherwise infeasible. We consider for the first time the semiparametric efficiency limits of OPE in Markov decision processes (MDPs), where actions, rewards, and states are memoryless. We show existing OPE estimators may fail to be efficient in this setting. We develop a new estimator based on cross-fold estimation of $q$-functions and marginalized density ratios, which we term double reinforcement learning (DRL). We show that DRL is efficient when both components are estimated at fourth-root rates and is also doubly robust when only one component is consistent. We investigate these properties empirically and demonstrate the performance benefits due to harnessing memorylessness.

연구 동기 및 목표

행동 정책이 달라 데이터를 얻고 탐색이 비용이 드는 RL에서 정확한 OPE를 동기부여한다.
비마코프(NMDP)와 마코프(MDP) 결정 프로세스에서 OPE의 효율성을 구분하여 기억 없음으로부터의 잠재적 이득을 이해한다.
q-함수와 밀도 비율을 교차 분할 추정으로 활용하는 전역적으로 효율적인 추정기(DRL)를 도입한다.
누즈니스 구성요소에 대한 이중 강건성 특성과 실용적 추정 전략을 제시한다.
마코프 특성 활용으로 얻은 효율성 향상의 실증적 근거를 제공한다.

제안 방법

M1(비마코프) 및 M2(마코프) 모델에서 rho^pi_e에 대한 효율적 영향을 함수와 반매개변수 효율 경계를 도출하되 행동 정책이 알려진 경우와 알려지지 않은 경우를 모두 다룬다.
교차 분할 추정으로 DRL 추정기를 구성하고 효율적 영향 함수에 q-함수와 밀도 비율의 플러그인을 수행한다.
잡음 성분이 4제곱근 속도로 추정될 때 DRL이 효율 경 Boundary를 달성함을 보이고, 하나의 구성요소만 일관되게 추정되어도 이중 강건성을 보인다.
DRL에 사용될 off-policy에서의 q-함수와 밀도 비율의 추정, 모수적 부분모형(parametric submodels) 및 효율성 고려사항을 논의한다.
메모리 없음(MDP 구조)을 활용하는 이점이 일반 NMDP보다 어떤 이점을 주는지 이론적 비교를 제공한다.
모형 간의 효율 경계의 관계(NMDP 대 MDP) 및 알려진/알려지지 않은 행동 정책에 대한 관계를 제시한다.

실험 결과

연구 질문

RQ1NMDP와 MDP에서 Off-Policy Evaluation의 반매개변수 효율 경계는 무엇인가?
RQ2비모수 설정하에서 OPE에 대해 전역적으로 효율적인 추정기가 존재하는가?
RQ3메모리 없음 구조를 활용하는 것이 OPE의 효율 경계 및 추정기 설계에 어떤 영향을 주는가?
RQ4교차 분할 누니스 추정 기반의 DRL이 두 모델 모두에서 효율성과 이중 강건성을 보이는가?
RQ5DRL을 위해 off-policy에서 q-함수와 밀도 비율을 추정하는 실용적 전략은 무엇인가?

주요 결과

DRL은 도출된 효율적 영향 함수 하에서 MDP 및 비마코프 설정에서 OPE에 대해 효율적임이 보인다.
MDP 하의 효율 경계는 일반적으로 horizon 길이에 다항적이고, NMDP 하에서는 일반적으로 지수적으로 증가하여 비마코프 모델의 시간 해로운 영향을 강조한다.
일부 누니스 구성요소를 부정확하게 추정하더라도 DRL은 일관성을 유지하여 이중 강건성을 보여준다.
MDP 하의 효율적 영향 함수는 기억 없음의 효과를 반영한 주변 밀도 비율을 포함하여 추정 구조를 변화시킨다.
누니스 추정기에 대해 q-함수와 밀도 비율의 교차 적합을 통해 효율적인 OPE를 실용적으로 구현하는 경로를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.