[論文レビュー] Batch Value-function Approximation with Only Realizability
本論文は BVFT を紹介します。探索的で多項式サイズのデータの下で realizability の下、候補価値関数のペア対戦と区分定数の抽象化戦略を用いて、Q* を学習するための多項式サンプル複雑性を達成するバッチ強化学習アルゴリズムです。
We make progress in a long-standing problem of batch reinforcement learning (RL): learning $Q^\star$ from an exploratory and polynomial-sized dataset, using a realizable and otherwise arbitrary function class. In fact, all existing algorithms demand function-approximation assumptions stronger than realizability, and the mounting negative evidence has led to a conjecture that sample-efficient learning is impossible in this setting (Chen and Jiang, 2019). Our algorithm, BVFT, breaks the hardness conjecture (albeit under a stronger notion of exploratory data) via a tournament procedure that reduces the learning problem to pairwise comparison, and solves the latter with the help of a state-action partition constructed from the compared functions. We also discuss how BVFT can be applied to model selection among other extensions and open problems.
研究の動機と目的
- realizability の下でバッチRLにおける多項式サンプル複雑性を可能にする最小の関数近似仮定を決定する。
- より強い関数近似仮定なしに、探索的なバッチデータから Q* を学習するアルゴリズムを開発する。
- 区分定数の抽象化とトーナメント機構を介して未構造の関数クラスを扱う多項式サンプル分析フレームワークを提供する。
- 制限を分析し、モデル選択や仮定の緩和などの拡張を議論する。
提案手法
- Candidate 函数の出力を離散化して区分定数の超集合を形成する Batch Value-Function Tournament (BVFT) を導入する。
- 関数が一定となる状態-行動空間の分割を構築し、L-無限大ノ形式でガンマ収束を持つ射影ベルマン演算子を可能にする。
- 離散化された射影ベルマン更新に基づくデータ依存統計量を用いて、すべての候補関数間で対比較を実行する。
- すべての対比較を生き抜いた関数を学習された q-関数として出力し、貪欲方針を生み出す。
- Assumption 1 の下で、concentrability係数を用いた探索データに基づく多項式サンプル境界を提供する。
- 大規模な |F| に対する計算効率の悪さにもかかわらず、モデル選択など他の拡張へ本手法をどのように拡張できるかを論じる。
実験結果
リサーチクエスチョン
- RQ1探索的データと多項式サイズのデータセットの下で、 realizability のみを前提としてバッチRLで Q* を学習できるか。
- RQ2実現可能だが任意の関数クラスを、より強い近似仮定なしにQ*を識別するためにどのように活用できるか。
- RQ3関数クラスの区分定数拡張を用いた場合、近似最適な方針を学習するためのサンプル複雑性はどの程度か。
- RQ4BVFT の制限は何であり、それをどのように緩和するか、モデル選択や他の問題への拡張とともに検討できるか。
主な発見
- BVFT は Assumption 1 の下で多項式サンプル学習保証を達成し、高確率で近似最適な方針を生み出す。
- 関数出力を離散化し、区分定数クラス上の射影ベルマン演算子を用いることで、学習を対比較へと還元する。
- 区分定数の抽象化により、射影ベルマン演算子は離散化誤差ゼロの下でガンマ収束となり、Q* に対応する唯一の不動点を持つ。
- 方法は関数クラスの近似誤差を epsilon_F の項で扱い、 realizability ギャップを含む境界を提供する。
- BVFT は関数クラス全体を列挙し、クラスサイズが多項式である場合に実現可能であり、モデル選択に使用できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。