QUICK REVIEW

[논문 리뷰] Minimax Weight and Q-Function Learning for Off-Policy Evaluation

Masatoshi Uehara, Jiawei Huang|arXiv (Cornell University)|2019. 10. 28.

Reinforcement Learning in Robotics참고 문헌 44인용 수 29

한 줄 요약

이 논문은 행동 정책 지식에 의존하지 않고 중요도 가중치와 Q함수를 함수 클래스 위에서 최소최대 최적화를 통해 학습하는 두 가지 새로운 이면 평가 추정기인 MWL과 MQL을 제안한다. 이 방법들은 표본 설정에서 반반형 효율성을 달성하고 기존 알고리즘을 통합하며, 이중으로 강건한 추정을 통해 더 나은 표본 복잡도와 강건성을 보인다.

ABSTRACT

We provide theoretical investigations into off-policy evaluation in reinforcement learning using function approximators for (marginalized) importance weights and value functions. Our contributions include: (1) A new estimator, MWL, that directly estimates importance ratios over the state-action distributions, removing the reliance on knowledge of the behavior policy as in prior work (Liu et al., 2018). (2) Another new estimator, MQL, obtained by swapping the roles of importance weights and value-functions in MWL. MQL has an intuitive interpretation of minimizing average Bellman errors and can be combined with MWL in a doubly robust manner. (3) Several additional results that offer further insights into these methods, including the sample complexity analyses of MWL and MQL, their asymptotic optimality in the tabular setting, how the learned importance weights depend the choice of the discriminator class, and how our methods provide a unified view of some old and new algorithms in RL.

연구 동기 및 목표

행동 정책의 밀도에 대한 명시적 지식이 필요하지 않은 새로운 이면 평가 추정기를 개발하는 것.
함수 근사 기반의 표본 효율성과 통계적 강건성을 향상시키기 위해 이면 가치 추정을 개선하는 것.
정규화된 중요도 샘플링, Q함수 학습, 기존 강화학습 알고리즘을 연결하는 통합 이론적 프레임워크를 제공하는 것.
제안된 추정기의 표본 복잡도와 渐近 최적성에 대한 이론적 보장을 수립하는 것.
상태-행동 함수 모델링이 표본 설정에서 반반형 효율성 하한을 달성할 수 있는지 보여주는 것.

제안 방법

행동 정책 지식이 필요 없도록 디스criminator 클래스를 사용하여 상태-행동 중요도 비율을 직접 학습하는 최소최대 추정기인 MWL을 제안한다.
MWL에서 중요도 가중치와 Q함수의 역할을 바꿔, 중요도 가중치를 디스criminator로 사용하는 Q함수 학습이 가능한 MQL을 도입한다.
상태-행동 쌍에 대한 함수 근사기반으로 중요도 가중치와 Q함수의 적합도를 균형 잡는 최소최대 목표를 사용한다.
MWL과 MQL의 표본 복잡도 한계를 유도하여, 약한 표현 가정 하에서 향상된 수렴 속도를 보임을 보여준다.
MWL과 MQL을 이중 강건 추정기로 조합하여 분산 감소와 모델 잘못 설정에 대한 강건성을 향상시킨다.
적응형 대역폭 선택(중위수 히وري스틱)과 배치 정규화를 사용하여 신경망 근사기의 학습 안정성을 높인 커널 기반 함수 클래스를 사용한다.

실험 결과

연구 질문

RQ1행동 정책의 밀도에 대한 명시적 지식이 없이도 이면 평가를 수행할 수 있는가?
RQ2함수 근사 하에서 MWL과 MQL의 표본 복잡도는 이전 방법과 어떻게 비교되는가?
RQ3상태-행동 함수 모델링이 표본 설정에서 반반형 효율성 하한을 달성할 수 있는가?
RQ4MWL/MQL과 LSTDQ 및 단계별 중요도 샘플링과 같은 기존 알고리즘 간의 관계는 무엇인가?
RQ5디스criminator 클래스의 선택이 학습된 중요도 가중치와 추정 성능에 어떤 영향을 미치는가?

주요 결과

MWL과 MQL은 상태-행동 함수를 모델링할 경우, 상태 함수 변형과 달리 표본 설정에서 반반형 효율성 하한을 달성한다.
MWL과 결합된 이중 강건 추정기로 인해 MQL는 더 나은 표본 복잡도와 강건성을 보이며, 추정의 분산을 감소시킨다.
에피소드적 MDP에서 단계별 중요도 샘플링은 역사 기반 MDP 설정 하에서 MWL의 특수한 경우로 엄밀히 증명된다.
중요도 가중치와 Q함수 모두 동일한 선형 클래스로 모델링될 경우, MWL과 MQL은 각각 LSTDQ와 이면 LSTD를 특수한 경우로 회복한다.
실험 결과 MQL과 MWL는 다양한 목표 정책과 표본 크기에서 DualDICE와 MSWL보다 정규화된 MSE에서 뛰어난 성능을 보이며, 음수의 정규화된 오차 점수는 기준선 대비 일관된 개선을 나타낸다.
적응형 대역폭(h/3 for MWL, h/15 for MQL)과 배치 정규화를 사용한 커널 기반 함수 클래스의 사용은 안정적인 학습과 향상된 성능을 이끈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.