QUICK REVIEW

[논문 리뷰] Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation

Qiang Liu, Lihong Li|arXiv (Cornell University)|2018. 10. 29.

Age of Information Optimization인용 수 112

한 줄 요약

논문은 상태 방문 분포에 중요도 샘플링을 적용하는 정적 상태-밀도비 기반의 off-policy 추정기를 제안하여 무한- horizon 설정에서 경로 기반 IS 방법에 비해 분산을 감소시킵니다. RKHS의 폐쇄형 해를 가진 미니맥스 밀도-비 추정 프레임워크를 제공하고, 장기-목표태스크에서의 실증 검증을 지원합니다.

ABSTRACT

We consider the off-policy estimation problem of estimating the expected reward of a target policy using samples collected by a different behavior policy. Importance sampling (IS) has been a key technique to derive (nearly) unbiased estimators, but is known to suffer from an excessively high variance in long-horizon problems. In the extreme case of in infinite-horizon problems, the variance of an IS-based estimator may even be unbounded. In this paper, we propose a new off-policy estimation method that applies IS directly on the stationary state-visitation distributions to avoid the exploding variance issue faced by existing estimators.Our key contribution is a novel approach to estimating the density ratio of two stationary distributions, with trajectories sampled from only the behavior distribution. We develop a mini-max loss function for the estimation problem, and derive a closed-form solution for the case of RKHS. We support our method with both theoretical and empirical analyses.

연구 동기 및 목표

장기 및 무한- horizon MDP에서 off-policy 추정의 고분산 문제(저주 of horizon)를 동기화하고 해결한다.
전체 궤적이 아닌 정적 상태 방문 분포에 중요도 샘플링을 적용하는 추정기를 도입한다.
RKHS 폐쇄형 해를 가진 미니맥스 밀도-비 추정 프레임워크를 개발하여 타깃 정책과 행동 정책 간의 정상상태 비를 계산한다.
제안된 손실의 이론적 분석과 Bellman 방정식과의 연결성을 보이고, 장기-목표 과제에서의 효과를 실험적으로 입증한다.

제안 방법

정적 방문 분포 d_pi(s)와 d_pi0(s) 사이의 밀도 비 w_pi/pi0(s)=d_pi(s)/d_pi0(s) 간의 정상 상태(off-policy) 평가를 형식화한다.
중요도 샘플링 추정기 R_pi = E_{(s,a)~d_pi0}[ w_pi/pi0(s) beta_pi/pi0(a|s) r(s,a) ]를 도출한다.
F의 함수 클래스에 걸쳐 판별기 기반 손실 L(w,f)을 최대화하고, 자가 해를 피하기 위한 정규화를 포함하는 k차 미니맥스 목표를 제안한다.
F가 RKHS의 유닛 볼인 경우 판별기의 최대화에 대한 폐쇄형 형태를 제공하여 실용적 추정을 가능하게 한다.
이상적으로 gamma<1인 감가율 및 gamma=1인 평균 보상 케이스에 대응하는 방정식과 정규화를 확장한다.
손실 L(w,f)와 Bellman 연산자 사이의 관계를 이론적으로 분석하고, F의 질이 w_pi/pi0 및 R_pi의 유계 추정 오차를 유도한다는 경계 조건을 제시한다.
정적 밀도-비 방법이 경로 기반 IS/WIS보다 더 낮은 분산과 더 나은 성능을 장기-목표 과제에서 달성한다는 것을 증거 기반으로 보여준다.

실험 결과

연구 질문

RQ1무한- horizon MDP에 대한 off-policy 평가를 전체 궤적이 아닌 정상 상태 방문 분포에 가중치를 두어 분산 강건하게 만들 수 있는가?
RQ2행동 정책에서의 off-policy 데이터만 사용하여 정상 상태 밀도 비 w_pi/pi0(s)를 일관되게 추정할 수 있는가?
RQ3RKHS를 이용한 미니맥스 밀도-비 추정 프레임워크가 off-policy 평가에 대한 폐쇄형 해와 이론적 보장을 제공하는가?
RQ4제안한 방법이 이산 및 연속 상태 공간에서 전통적 IS/WIS 접근법에 비해 장기-목표 시나리오에서 어떻게 성능을 발휘하는가?

주요 결과

정적 상태 밀도에 기반한 중요도 샘플링 추정기가 분산을 줄이고 horizon 의존성을 제거한다.
미니맥스 밀도-비 추정기가 도출되며, max-판별기 objective에 대한 RKHS 해폐쇄형 해를 가진다.
밀도-비 추정기가 Bellman 연산자와의 의미 있는 경계 연결을 제공하여 추정 보상에 대한 오차 제어를 가능하게 한다.
Taxi, Pendulum, SUMO 환경에서 경로 기반 IS/WIS보다 향상된 성능을 보이며, horizon 길이가 증가하거나 할인 인자가 1에 가까워질수록 특히 그렇다.
신경망으로 w를 매개화하고 RKHS 기반 판별기를 사용하여 연속 상태 공간에서도 방법의 효과가 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.