QUICK REVIEW

[논문 리뷰] Consistent On-Line Off-Policy Evaluation

Assaf Hallak, Shie Mannor|arXiv (Cornell University)|2017. 02. 23.

Smart Grid Energy Management인용 수 39

한 줄 요약

이 논문은 행동 정책와 타겟 정책 간의 정적 분포 불일치로 인해 발생하는 편향을 보정함으로써 일관성을 확보하는 새로운 온라인 오프정책 시간차 알고리즘인 COP-TD(λ, β)를 제안한다. 이 알고리즘은 기존의 ETD(λ, β)와 같은 방법들보다 분포 불일치가 높은 상황, 특히 함수 근사가 사용될 경우에 더 뛰어난 성능을 보이며, 온정책 TD(λ)와 동일한 값으로 수렴한다.

ABSTRACT

The problem of on-line off-policy evaluation (OPE) has been actively studied in the last decade due to its importance both as a stand-alone problem and as a module in a policy improvement scheme. However, most Temporal Difference (TD) based solutions ignore the discrepancy between the stationary distribution of the behavior and target policies and its effect on the convergence limit when function approximation is applied. In this paper we propose the Consistent Off-Policy Temporal Difference (COP-TD($λ$, $β$)) algorithm that addresses this issue and reduces this bias at some computational expense. We show that COP-TD($λ$, $β$) can be designed to converge to the same value that would have been obtained by using on-policy TD($λ$) with the target policy. Subsequently, the proposed scheme leads to a related and promising heuristic we call log-COP-TD($λ$, $β$). Both algorithms have favorable empirical results to the current state of the art on-line OPE algorithms. Finally, our formulation sheds some new light on the recently proposed Emphatic TD learning.

연구 동기 및 목표

함수 근사가 적용될 경우 행동 정책와 타겟 정책 간의 정적 분포 불일치로 인해 발생하는 오프정책 TD 학습의 일관성 문제를 해결하기 위해.
선형 함수 근사 하에서 온정책 TD(λ)와 동일한 고정점을 수렴하는 온라인 알고리즘을 개발하기 위해.
기존 방법들인 ETD(λ, β)와 유사하게 안정성과 수렴성에 영향을 주는 하이퍼파rameter β에 대한 의존도를 줄이기 위해.
일관된 온라인 오프정책 평가를 위한 이론적으로 탄탄하고 구현 가능한 프레임워크를 제공하기 위해.
TD(λ)의 통계적 해석과의 연결 고리를 탐색하여, 분산 기반 또는 로그 가중치를 사용하는 개선된 히우리스틱 변형인 log-COP-TD(λ, β)를 도출하기 위해.

제안 방법

행동 정책와 타겟 정책의 정적 분포 비율 dπ(s)/dμ(s)를 고려하여 유인성 추적 업데이트를 수정함으로써, 온정책 TD(λ)와의 일관성을 확보하는 온라인 오프정책 TD 알고리즘인 COP-TD(λ, β)를 제안한다.
특징 공간에 대한 보정된 투영을 사용하여, 함수 근사 하에서 가치 함수 추정의 편향을 보정하기 위해 가중치가 부여된 유인성 추적을 통한 새로운 업데이트 규칙을 도입한다.
한정점이 온정책 TD(λ)와 일치하도록 수정된 벨만 연산자를 해결하는 방식으로 알고리즘을 유도하며, 이는 수정된 투영을 통해 이루어진다.
로그(ρd)를 ρd 대신 근사하는 히우리스틱 변형인 log-COP-TD(λ, β)를 제안하여 β에 대한 민감도를 감소시키고 경험적 안정성을 향상시킨다.
사슬 MDP, 랜덤 MDP, 악로브, 카트폴 환경에서 ETD(λ, β)와 GTD(λ, β)와의 비교를 통해 방법의 실증적 타당성을 검증한다.
온정책 TD가 별도의 궤적에서 얻은 기준값을 사용하여, 수렴성을 평가하기 위해 가중치가 부여된 오차 측도 ∥V̂ − ΠπTVπ∥²_dπ를 사용한다.

실험 결과

연구 질문

RQ1행동 정책와 타겟 정책 간의 정적 분포 불일치를 보정함으로써, 함수 근사가 적용된 오프정책 TD 학습이 온정책 TD(λ)와 일관성이 있도록 만들 수 있는가?
RQ2COP-TD(λ, β)의 성능은 ETD(λ, β)와 GTD(λ, β)에 비해 수렴 정확도와 β에 대한 민감도 측면에서 어떻게 다른가?
RQ3제안된 log-COP-TD(λ, β) 변형은 β에 대한 민감도를 줄이면서도 추정 정확도를 유지하거나 향상시키는가?
RQ4함수 근사 하에서 오프정책 TD 알고리즘의 수렴 행동에 대해 정적 분포 비율 dπ(s)/dμ(s)가 미치는 영향은 무엇인가?
RQ5TD(λ)의 통계적 해석은 분산 기반 또는 로그 가중치를 사용함으로써 오프정책 추정을 향상시킬 수 있는가?

주요 결과

적절한 특징 집합을 사용할 경우, COP-TD(λ, β)는 온정책 TD(λ)와 동일한 고정점을 수렴하여 이론적 일관성을 확보한다.
ETD(λ, β)에 비해 β 하이퍼파rameter에 대해 훨씬 낮은 민감도를 보이며, 특히 분포 불일치가 높은 환경에서 두드러진다.
100개 상태를 가진 사슬 MDP에서, COP-TD(λ, β)와 log-COP-TD(λ, β)는 ETD(λ, β)와 GTD(λ, β)를 모두 앞서며, β가 클수록 더 두드러진 성능 향상을 보인다.
악로브와 카트폴 환경에서는 COP-TD(λ, β)와 log-COP-TD(λ, β)가 ETD(λ, β)와 비교해 유사하거나 더 낮은 오차로 가치 추정 성능을 달성한다.
log-COP-TD(λ, β) 변형은 β에 더 민감하지 않으며, 다양한 MDP에서 더 안정적인 성능을 보이며, γ_log가 최적화될 경우 최적의 성능을 발휘한다.
GTD(λ, β)는 모든 설정에서 일관되게 열등한 성능을 보이며, 특히 정책 불일치가 높을 경우 그 업데이트 규칙의 한계가 드러난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.