QUICK REVIEW

[논문 리뷰] Doubly Robust Bias Reduction in Infinite Horizon Off-Policy Estimation

Ziyang Tang, Yihao Feng|arXiv (Cornell University)|2020. 04. 30.

Reinforcement Learning in Robotics참고 문헌 31인용 수 19

한 줄 요약

이 논문은 학습된 가치 함수와 정적 밀도 비율 추정을 조합하여 편향을 줄이는 이중 강건한 방법을 제안한다. 이 방법은 밀도 비율 또는 가치 함수가 정확히 추정될 경우 편향이 사라지게 하여, 이전 방법들에 비해 정확도와 분산 감소를 크게 향상시킨다.

ABSTRACT

Infinite horizon off-policy policy evaluation is a highly challenging task due to the excessively large variance of typical importance sampling (IS) estimators. Recently, Liu et al. (2018) proposed an approach that significantly reduces the variance of infinite-horizon off-policy evaluation by estimating the stationary density ratio, but at the cost of introducing potentially high risks due to the error in density ratio estimation. In this paper, we develop a bias-reduced augmentation of their method, which can take advantage of a learned value function to obtain higher accuracy. Our method is doubly robust in that the bias vanishes when either the density ratio or value function estimation is perfect. In general, when either of them is accurate, the bias can also be reduced. Both theoretical and empirical results show that our method yields significant advantages over previous methods.

연구 동기 및 목표

중요도 샘플링을 사용한 무한 시간 간격 이완 정책 평가에서의 높은 분산과 잠재적 편향을 해결한다.
이전 방법에서 심각한 오류를 유발할 수 있는 정확한 밀도 비율 추정에 대한 의존도를 줄인다.
학습된 가치 함수를 활용하여 추정 정확도와 강건성을 향상시킨다.
밀도 비율 또는 가치 함수 추정이 정확할 경우 편향이 사라지는 방법을 개발한다.
이론적 강건성과 실험적 검증을 통해 기존 접근법을 초월한 우수한 성능을 달성한다.

제안 방법

Liu 등(2018)의 방법에 학습된 가치 함수를 통합하여 편향 감소형 보완을 제안한다.
중요도 샘플링과 가치 함수 보정을 조합하여 편향을 줄이는 추정기 구축.
밀도 비율 또는 가치 함수가 정확히 추정될 경우 편향이 사라지게 하여 이중 강건성을 확보한다.
이중 단계 추정 절차를 사용: 먼저 정적 밀도 비율을 추정하고, 그 다음 이완 정책 데이터를 사용해 가치 함수를 추정한다.
밀도 비율과 가치 함수에 모두 의존하는 보정 항을 적용하여 추정기의 안정성과 분산 감소를 도모한다.
이론적 분석을 통해 이전 방법보다 더 약한 가정 하에서도 추정기가 일致성을 유지함을 보여준다.

실험 결과

연구 질문

RQ1정확한 밀도 비율 추정에만 의존하지 않고도 무한 시간 간격 이완 정책 평가에서 편향을 줄일 수 있는 방법을 설계할 수 있는가?
RQ2값 함수 추정과 밀도 비율 추정을 조합할 경우 이완 정책 평가에서 편향과 분산에 어떤 영향을 미치는가?
RQ3제안된 방법이 이중 강건성을 확보하는가? 즉, 밀도 비율 또는 가치 함수 중 하나만 정확히 추정될 경우 편향이 사라지는가?
RQ4추정 정확도와 분산 감소 측면에서 기존 방법을 능가할 수 있는가?
RQ5모델 잘못 지정 시 각 성분의 모델 불일치 하에서 이 방법의 이론적 보장은 무엇인가?

주요 결과

표준 중요도 샘플링 및 이전의 밀도 비율 기반 방법에 비해 제안된 방법이 분산 감소를 크게 달성한다.
추정기는 이중 강건하다: 밀도 비율 또는 가치 함수가 오차 없이 추정될 경우 편향이 사라진다.
실험 결과는 밀도 비율 추정이 완벽하지 않을 경우에도 Liu 등(2018)의 방법보다 정확도가 향상됨을 보여준다.
밀도 비율과 가치 함수 추정에 중간 정도의 오차가 있을 경우에도 이 방법은 낮은 편향을 유지한다.
이론적 분석을 통해 이전 방법보다 더 약한 가정 하에서도 추정기가 일치성을 유지함을 확인한다.
다양한 환경에서 뛰어난 성능을 보이며, 이는 이 방법의 실용적 유용성을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.