QUICK REVIEW

[논문 리뷰] DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections

Ofir Nachum, Yinlam Chow|arXiv (Cornell University)|2019. 06. 10.

Reinforcement Learning in Robotics참고 문헌 44인용 수 42

한 줄 요약

DualDICE는 각 단계의 중요도 가중치 없이 off-policy 평가를 위한 할인된 정상 분포 보정치를 추정하는 행동-무관 방법을 도입하며, 이론적 보장과 기존 방법에 비해 실험적 개선을 제공합니다.

ABSTRACT

In many real-world reinforcement learning applications, access to the environment is limited to a fixed dataset, instead of direct (online) interaction with the environment. When using this data for either evaluation or training of a new policy, accurate estimates of discounted stationary distribution ratios -- correction terms which quantify the likelihood that the new policy will experience a certain state-action pair normalized by the probability with which the state-action pair appears in the dataset -- can improve accuracy and performance. In this work, we propose an algorithm, DualDICE, for estimating these quantities. In contrast to previous approaches, our algorithm is agnostic to knowledge of the behavior policy (or policies) used to generate the dataset. Furthermore, it eschews any direct use of importance weights, thus avoiding potential optimization instabilities endemic of previous methods. In addition to providing theoretical guarantees, we present an empirical study of our algorithm applied to off-policy policy evaluation and find that our algorithm significantly improves accuracy compared to existing techniques.

연구 동기 및 목표

환경에 대한 접근이 고정된, 다중 정책일 수 있는 데이터셋으로 제한될 때 off-policy 평가의 필요성을 제시한다.
할인된 정상 분포 비율을 사용한 편향 보정 가치 추정 프레임워크를 정의한다.
behavior 정책이나 중요도 가중치의 지식 없이 분포 보정치를 추정하는 최적화 기반 방법을 개발한다.
이론적 수렴 보장을 제공하고 벤치마크 전반에서 기존 방법에 비해 실험적 개선을 보여준다.

제안 방법

정지 분포 보정 w_{\text{π/𝒟}}(s,a) = d^{π}(s,a)/d^{𝒟}(s,a)를 형식화하고 이를 OPE 목적에 연결한다.
최소화점이 원하는 보정과 같은 벨만 잔차(ν* − B^{π}ν*) = w_{\text{π/𝒟}}가 되도록 하는 볼록 목적 함수 J(ν)를 도입한다.
제곱 벨만 잔차 목적 함수를 ν와 ζ를 포함하는 새들-점(saddle-point) 문제로 변환하기 위해 페넬 대칭성(Fenchel duality)을 적용하고, 편향되지 않은 확률적 기울기를 가능하게 한다.
해를 제공하는 최소-최대 최적화(ν, ζ)를 도출하고, 정지 보정은 ζ*(s,a) = w_{\text{π/𝒟}}(s,a)로 얻어진다.
일반 볼록 페널티 f로 프레임워크를 확장하여 유사한 이점을 가진 사다점(saddle-point) 목적 함수의 계열을 얻는다.

실험 결과

연구 질문

RQ1알려지지 않거나 다수의 behavior 정책에 의해 생성된 off-policy 데이터셋일 때 할인된 정상 분포 보정치를 어떻게 추정할 수 있는가?
RQ2단계별 중요도 가중치 없이도 이러한 보정치를 추정하면서 수렴 보장과 실용적 최적화 특성을 보존할 수 있는가?
RQ3제안된 DualDICE 목표들이 TD 기반 및 IS 기반 기준선과 비교하여 특히 함수 근사에서 정확한 off-policy 평가를 제공하는가?
RQ4볼록 페널티 f의 선택이 최적화의 안정성 및 추정 정확도에 어떤 영향을 미치는가?

주요 결과

DualDICE는 per-step 중요도 가중치에 의존하지 않는 행동-무관 할인된 정상 분포 보정 추정기를 제공한다.
ν 매개변수화된 목적 함수의 최적 벨만 잔차가 원하는 분포 보정 w_{\text{π/𝒟}}(s,a)와 같다.
페넬 이중화가 적용된 최소-최대 형식은 편향되지 않은 그래디언트 추정과 안정적인 최적화 절차를 제공한다.
이 방법은 제어 과제에서 TD 기반 접근법과 경쟁적이거나 우수한 OPE 성능을 달성하며, 특히 함수 근사 및 알려지지 않은 행동 정책에서 그렇다.
일반 볼록 페널티로 확장하면 계산상의 이점을 유지하고 근사오차와 최적화 오차 간의 균형에 융통성을 제공한다.
실험 결과는 복잡한 환경에서 TD 방법보다 더 나은 안정성과 정확성을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.