[논문 리뷰] CoinDICE: Off-Policy Confidence Interval Estimation
CoinDICE는 일반화된 추정 방정식과 경험적 우도를 사용하여 강화학습에서 비정책적(confidence interval) 추정을 위한 새로운 효율적인 알고리즘을 제안한다. 이는 점근적 및 유한 표본 설정 모두에서 유효한 신뢰구간을 생성하며, 다양한 벤치마크에서 기존 방법보다 더 날카럽고 정확한 구간을 제공한다.
We study high-confidence behavior-agnostic off-policy evaluation in reinforcement learning, where the goal is to estimate a confidence interval on a target policy's value, given only access to a static experience dataset collected by unknown behavior policies. Starting from a function space embedding of the linear program formulation of the $Q$-function, we obtain an optimization problem with generalized estimating equation constraints. By applying the generalized empirical likelihood method to the resulting Lagrangian, we propose CoinDICE, a novel and efficient algorithm for computing confidence intervals. Theoretically, we prove the obtained confidence intervals are valid, in both asymptotic and finite-sample regimes. Empirically, we show in a variety of benchmarks that the confidence interval estimates are tighter and more accurate than existing methods.
연구 동기 및 목표
- 행동 정책에 대한 지식이 없이도 유효한 신뢰구간을 생성하는 비정책 평가 방법을 개발하는 것.
- 점근적 및 유한 표본 설정 모두에서 신뢰구간의 유효성을 보장하는 것.
- 기존 비정책 평가 방법과 비교하여 신뢰구간 추정의 날카움과 정확도를 향상시키는 것.
- 모든 데이터가 알려지지 않은 행동 정책에 의해 수집된 정적 데이터 세트만을 사용하여 행동 정책에 영향을 받지 않는 추정을 가능하게 하는 것.
제안 방법
- 선형 프로그래밍 공식화된 Q함수의 함수 공간 임bedding으로 시작한다.
- Q함수 제약 조건에서 유도된 일반화된 추정 방정식(GEE) 제약 조건을 갖는 최적화 문제를 설정한다.
- 제약 조건이 있는 최적화 문제의 라그랑지안에 일반화된 경험적 우도 방법을 적용한다.
- 최종적으로 유도된 알고리즘인 CoinDICE는 이 변환된 최적화 문제를 풀어 신뢰구간을 계산한다.
- 이 접근법은 점근적 및 유한 표본 설정 모두에서 이론적 보장을 통해 신뢰구간의 유효성을 보장한다.
실험 결과
연구 질문
- RQ1알 수 없는 행동 정책 하에서 유효한 신뢰구간을 구성할 수 있는가?
- RQ2비정책 평가에서 유한 표본 유효성을 어떻게 확보할 수 있는가?
- RQ3기존 방법과 비교해 신뢰구간의 날카움과 정확도를 향상시킬 수 있는가?
- RQ4이 맥락에서 일반화된 추정 방정식과 경험적 우도의 영향은 무엇인가?
주요 결과
- CoinDICE는 점근적 및 유한 표본 설정 모두에서 유효한 신뢰구간을 생성한다.
- CoinDICE가 생성한 신뢰구간은 기존 비정책 평가 방법이 생성한 것보다 더 날카럽다.
- 실험 결과에 따르면 CoinDICE는 여러 벤치마크에서 신뢰구간 추정의 정확도가 높다.
- 이 방법은 행동 정책에 영향을 받지 않으며, 데이터셋을 생성한 정책에 대한 지식이 필요하지 않다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.