Skip to main content
QUICK REVIEW

[논문 리뷰] Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation

Qiang Liu, Lihong Li|arXiv (Cornell University)|2018. 10. 29.
Age of Information Optimization인용 수 112
한 줄 요약

논문은 상태 방문 분포에 중요도 샘플링을 적용하는 정적 상태-밀도비 기반의 off-policy 추정기를 제안하여 무한- horizon 설정에서 경로 기반 IS 방법에 비해 분산을 감소시킵니다. RKHS의 폐쇄형 해를 가진 미니맥스 밀도-비 추정 프레임워크를 제공하고, 장기-목표태스크에서의 실증 검증을 지원합니다.

ABSTRACT

We consider the off-policy estimation problem of estimating the expected reward of a target policy using samples collected by a different behavior policy. Importance sampling (IS) has been a key technique to derive (nearly) unbiased estimators, but is known to suffer from an excessively high variance in long-horizon problems. In the extreme case of in infinite-horizon problems, the variance of an IS-based estimator may even be unbounded. In this paper, we propose a new off-policy estimation method that applies IS directly on the stationary state-visitation distributions to avoid the exploding variance issue faced by existing estimators.Our key contribution is a novel approach to estimating the density ratio of two stationary distributions, with trajectories sampled from only the behavior distribution. We develop a mini-max loss function for the estimation problem, and derive a closed-form solution for the case of RKHS. We support our method with both theoretical and empirical analyses.

연구 동기 및 목표

  • 장기 및 무한- horizon MDP에서 off-policy 추정의 고분산 문제(저주 of horizon)를 동기화하고 해결한다.
  • 전체 궤적이 아닌 정적 상태 방문 분포에 중요도 샘플링을 적용하는 추정기를 도입한다.
  • RKHS 폐쇄형 해를 가진 미니맥스 밀도-비 추정 프레임워크를 개발하여 타깃 정책과 행동 정책 간의 정상상태 비를 계산한다.
  • 제안된 손실의 이론적 분석과 Bellman 방정식과의 연결성을 보이고, 장기-목표 과제에서의 효과를 실험적으로 입증한다.

제안 방법

  • 정적 방문 분포 d_pi(s)와 d_pi0(s) 사이의 밀도 비 w_pi/pi0(s)=d_pi(s)/d_pi0(s) 간의 정상 상태(off-policy) 평가를 형식화한다.
  • 중요도 샘플링 추정기 R_pi = E_{(s,a)~d_pi0}[ w_pi/pi0(s) beta_pi/pi0(a|s) r(s,a) ]를 도출한다.
  • F의 함수 클래스에 걸쳐 판별기 기반 손실 L(w,f)을 최대화하고, 자가 해를 피하기 위한 정규화를 포함하는 k차 미니맥스 목표를 제안한다.
  • F가 RKHS의 유닛 볼인 경우 판별기의 최대화에 대한 폐쇄형 형태를 제공하여 실용적 추정을 가능하게 한다.
  • 이상적으로 gamma<1인 감가율 및 gamma=1인 평균 보상 케이스에 대응하는 방정식과 정규화를 확장한다.
  • 손실 L(w,f)와 Bellman 연산자 사이의 관계를 이론적으로 분석하고, F의 질이 w_pi/pi0 및 R_pi의 유계 추정 오차를 유도한다는 경계 조건을 제시한다.
  • 정적 밀도-비 방법이 경로 기반 IS/WIS보다 더 낮은 분산과 더 나은 성능을 장기-목표 과제에서 달성한다는 것을 증거 기반으로 보여준다.

실험 결과

연구 질문

  • RQ1무한- horizon MDP에 대한 off-policy 평가를 전체 궤적이 아닌 정상 상태 방문 분포에 가중치를 두어 분산 강건하게 만들 수 있는가?
  • RQ2행동 정책에서의 off-policy 데이터만 사용하여 정상 상태 밀도 비 w_pi/pi0(s)를 일관되게 추정할 수 있는가?
  • RQ3RKHS를 이용한 미니맥스 밀도-비 추정 프레임워크가 off-policy 평가에 대한 폐쇄형 해와 이론적 보장을 제공하는가?
  • RQ4제안한 방법이 이산 및 연속 상태 공간에서 전통적 IS/WIS 접근법에 비해 장기-목표 시나리오에서 어떻게 성능을 발휘하는가?

주요 결과

  • 정적 상태 밀도에 기반한 중요도 샘플링 추정기가 분산을 줄이고 horizon 의존성을 제거한다.
  • 미니맥스 밀도-비 추정기가 도출되며, max-판별기 objective에 대한 RKHS 해폐쇄형 해를 가진다.
  • 밀도-비 추정기가 Bellman 연산자와의 의미 있는 경계 연결을 제공하여 추정 보상에 대한 오차 제어를 가능하게 한다.
  • Taxi, Pendulum, SUMO 환경에서 경로 기반 IS/WIS보다 향상된 성능을 보이며, horizon 길이가 증가하거나 할인 인자가 1에 가까워질수록 특히 그렇다.
  • 신경망으로 w를 매개화하고 RKHS 기반 판별기를 사용하여 연속 상태 공간에서도 방법의 효과가 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.