Skip to main content
QUICK REVIEW

[論文レビュー] Using Options and Covariance Testing for Long Horizon Off-Policy Policy Evaluation

Zhaohan Daniel Guo, Philip S. Thomas|arXiv (Cornell University)|Mar 9, 2017
Economic and Environmental Valuation被引用数 25
ひとこと要約

本稿では、長時間スパンの順序的意思決定タスクにおけるオフポリシー方策評価において、重要度サンプリング推定器の分散を低減するために、時間的に拡張されたアクション(オプション)の使用を提案する。方策をオプションに基づいて構造化することで、指数的分散低減が達成され、動的重み pruning を可能にする共分散テストルールを導入し、新たなアルゴリズムであるインクリメンタル・インポートランス・サンプリング(INCRIS)を提案する。この手法は、既存の手法と比較して推定精度を著しく向上させ、平均二乗誤差を低く抑える。

ABSTRACT

Evaluating a policy by deploying it in the real world can be risky and costly. Off-policy policy evaluation (OPE) algorithms use historical data collected from running a previous policy to evaluate a new policy, which provides a means for evaluating a policy without requiring it to ever be deployed. Importance sampling is a popular OPE method because it is robust to partial observability and works with continuous states and actions. However, the amount of historical data required by importance sampling can scale exponentially with the horizon of the problem: the number of sequential decisions that are made. We propose using policies over temporally extended actions, called options, and show that combining these policies with importance sampling can significantly improve performance for long-horizon problems. In addition, we can take advantage of special cases that arise due to options-based policies to further improve the performance of importance sampling. We further generalize these special cases to a general covariance testing rule that can be used to decide which weights to drop in an IS estimate, and derive a new IS algorithm called Incremental Importance Sampling that can provide significantly more accurate estimates for a broad class of domains.

研究の動機と目的

  • 長時間スパンのオフポリシー方策評価における重要度サンプリングの高分散性を是正すること。これは、実世界の応用における実用性を制限する要因である。
  • オプションによる時間的抽象化を活用し、有効なホライズンを短縮することで、推定の安定性を向上させること。
  • オプションに基づく方策における特別な構造的ケースを同定し、重みのドロップ(削除)によってさらなる分散低減を可能にする。
  • これらの特別なケースを一般化し、重要度サンプリングにおける自動的重み選択を可能にする一貫性のある共分散テストルールを導出すること。
  • このルールを適用して推定精度を向上させる新しいアルゴリズム、インクリメンタル・インポートランス・サンプリング(INCRIS)の開発と評価を行うこと。

提案手法

  • 離散的な状態、行動、報酬を持つマルコフ決定過程(MDP)を用いて意思決定プロセスをモデル化し、基本行動またはオプションの上に方策を定義する。
  • オプションを基本方策、終了条件、入力状態集合の組み合わせとして表現することで、時間的に拡張されたアクションを可能にする。
  • 行動方策の下で収集されたデータを用いて評価方策の性能を推定するための重要度サンプリングを適用し、オプションを扱えるように修正する。
  • 推定器の分散に与える寄与度に基づき、低影響の重要度サンプリング重みを同定し、ドロップするための共分散テストルールを導出する。
  • 共分散テストを動的に適用して重みを選択するインクリメンタル・インポートランス・サンプリング(INCRIS)アルゴリズムを設計し、推定器の精度を向上させる。
  • 糖尿病管理やデジタルマーケティングなどの実世界のドメインを模倣するため、従属するサブエピソードを有する変更版MDPを用いてINCRISを実証的に評価する。

実験結果

リサーチクエスチョン

  • RQ1オフポリシー方策評価におけるオプションの使用は、長時間スパンタスクにおける重要度サンプリング推定器の分散を低減できるか?
  • RQ2オプションの構造的性質(例えば、固定状態分布での終了)は、重要度サンプリングにおける自然な分散低減をもたらすか?
  • RQ3一貫性のある共分散テストルールを導出でき、無情報な重要度サンプリング重みを自動的に同定・ドロップできるか?
  • RQ4得られたインクリメンタル・インポートランス・サンプリング(INCRIS)アルゴリズムは、標準的な重要度サンプリング手法と比較して顕著に低い平均二乗誤差を達成できるか?
  • RQ5データ量の増加に伴い、INCRISはより長い行動シーケンスを選択することでバイアスと分散のバランスを適応的に調整できるか?

主な発見

  • オプションに基づく方策を用いることで、重要度サンプリング推定器の分散が指数関数的に低減され、一部のケースではホライズン長に依存しない分散が達成される。
  • オプションにおける特別な構造的ケース(例えば、固定状態分布での終了)により、重要度サンプリング重みのドロップが可能となり、顕著な分散低減が実現される。
  • 提案された共分散テストルールは、低影響の重みを的確に同定・削除し、バイアスを導入せずに推定器の分散を低減する。
  • INCRISアルゴリズムは、通常の重要度サンプリングと比較して平均二乗誤差が1桁低く、特定のデータ環境では重みなし推定器と比較して最大2桁の改善を達成する。
  • INCRISは、糖尿病治療やデジタルマーケティングなどのエピソードが独立でないドメインにおいても有効であり、特に標準的なISがi.i.d.仮定を満たさない歴史的依存性を有する分野で優れた性能を示す。
  • エピソードが独立でない分野(例:糖尿病治療、デジタルマーケティング)において、本手法は有効である。ここでは、標準的なISのi.i.d.仮定が破られるため。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。