Skip to main content
QUICK REVIEW

[논문 리뷰] Woulda, Coulda, Shoulda: Counterfactually-Guided Policy Search

Lars Buesing, Théophane Weber|arXiv (Cornell University)|2018. 11. 15.
Advanced Bandit Algorithms Research참고 문헌 23인용 수 41
한 줄 요약

CF-GPS는 구조적 인과 모델 내에서 대안 결과를 반사적으로 평가하여 off-policy 데이터로부터 정책을 학습하고, 모델 편향을 줄이며 정책 평가 및 탐색을 개선한다.

ABSTRACT

Learning policies on data synthesized by models can in principle quench the thirst of reinforcement learning algorithms for large amounts of real experience, which is often costly to acquire. However, simulating plausible experience de novo is a hard problem for many complex environments, often resulting in biases for model-based policy evaluation and search. Instead of de novo synthesis of data, here we assume logged, real experience and model alternative outcomes of this experience under counterfactual actions, actions that were not actually taken. Based on this, we propose the Counterfactually-Guided Policy Search (CF-GPS) algorithm for learning policies in POMDPs from off-policy experience. It leverages structural causal models for counterfactual evaluation of arbitrary policies on individual off-policy episodes. CF-GPS can improve on vanilla model-based RL algorithms by making use of available logged data to de-bias model predictions. In contrast to off-policy algorithms based on Importance Sampling which re-weight data, CF-GPS leverages a model to explicitly consider alternative outcomes, allowing the algorithm to make better use of experience data. We find empirically that these advantages translate into improved policy evaluation and search results on a non-trivial grid-world task. Finally, we show that CF-GPS generalizes the previously proposed Guided Policy Search and that reparameterization-based algorithms such Stochastic Value Gradient can be interpreted as counterfactual methods.

연구 동기 및 목표

  • RL에서 학습을 위한 반사적 추론을 동기로 삼아 순전히 합성 데이터로 인한 모델 편향을 완화한다.
  • 구조적 인과 모델을 사용하여 POMDP에서 모델 기반 RL을 형식화한다.
  • 오프 폴시 정책 학습을 위한 반사적 정책 평가와 CF-GPS 알고리즘을 도입한다.
  • CF-GPS와 GPS, Stochastic Value Gradient 같은 기존 RL 방법과의 연결고리를 보여준다.
  • 부분적으로 관찰 가능한 Sokoban 유사 작업에서 실험적 이점을 시연한다.

제안 방법

  • 독립적인 시나리오와 결정론적 인과 메커니즘을 갖는 구조적 인과 모델로 POMDP 환경을 표현한다.
  • 관찰된 데이터에서 노이즈 변수를 추론하고 개입을 수행해 do-queries를 얻는 방식으로 SCM에서 반사적 추론을 정의한다.
  • CF-PE: posterior-inferred 시나리오를 사용해 off-policy 데이터에서 편향되지 않은 추정으로 정책을 평가하는 반사적 off-policy 평가를 제안한다.
  • CF-GPS: 반사적으로 접지된 정책 탐색으로 off-policy 데이터에서 도출된 반사적 분포에 정책 개선을 위한 롤아웃을 고정(anchor)한다.
  • CF-GPS가 일반화된 Guided Policy Search와 반사적 방법으로서 Stochastic Value Gradient와의 관련성을 보여준다.
  • PO-SOKOBAN에서 CF-GPS를 MB-PS 및 GPS-유사 기준선과 비교하는 실험 설정을 제공한다.

실험 결과

연구 질문

  • RQ1구조적 인과 모델의 반사적 추론이 RL에서 오프 폴리시 데이터로부터 학습할 때 편향을 줄일 수 있는가?
  • RQ2CF-PE가 표준 모델 기반 오프 폴시 평가와 편향 및 정확도 측면에서 어떻게 비교되는가?
  • RQ3CF-GPS가 비-trivial한 부분적으로 관찰된 작업에서 일반적인 모델 기반 정책 탐색 및 GPS 유사 방법보다 정책 탐색 성능을 향상시킬 수 있는가?
  • RQ4CF-GPS, GPS 및 SVG 방법 사이의 이론적 및 실증적 연결은 무엇인가?
  • RQ5CF-GPS가 실제 로그 데이터를 사용할 때 전통적 모델 기반 접근법보다 우수한 조건은 무엇인가?

주요 결과

  • CF-GPS는 오프-policy 데이터에서 추론된 시나리오에 기반하여 모델 기반 예측을 정책 평가 및 탐색에 고정함으로써 성능을 향상시킨다.
  • 반사적 평가가 개입 하에서 모델 불일치가 없다고 가정할 때 정책 가치의 편향되지 않은 추정치를 제공한다.
  • CF-GPS는 PO-SOKOBAN에서 MB-PS 및 GPS 유사 기준선보다 정책 평가 및 정책 탐색 작업에서 우수하다.
  • 롤아웃을 반사적 분포에 고정시키면 모델 불일치를 완화하고 로그 데이터의 활용을 향상시킨다.
  • GPS가 완전 관찰 MDP에서 MB-PS의 반사적 버전에 해당하고 SVG는 반사적 방법으로 볼 수 있다는 연결이 확립된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.