QUICK REVIEW

[論文レビュー] Online Learning: Beyond Regret

Alexander Rakhlin, Karthik Sridharan|arXiv (Cornell University)|Nov 14, 2010

Advanced Bandit Algorithms Research参考文献 28被引用数 51

ひとこと要約

本稿は、外部レジストを越えてオンライン学習理論を拡張し、マーティングール収束、既知の将来のパフォーマンス、逐次ラデマッハ複雑度という3つのコアな量の制御を通じて、内部レジスト、キャリブレーション、到達可能性、適応的レジストといった多様なパフォーマンス指標を統一的に捉えるフレームワークを提案する。主な貢献は、学習可能性の複雑度に基づく特徴付けであり、2つ以上の結果を伴うキャリブレーションに対してタイトな $O(T^{-1/2})$ のレートを導出し、アルゴリズム的構築に依存せずにバナッハ空間における確実なハナン一貫性を確立する。

ABSTRACT

We study online learnability of a wide class of problems, extending the results of (Rakhlin, Sridharan, Tewari, 2010) to general notions of performance measure well beyond external regret. Our framework simultaneously captures such well-known notions as internal and general Phi-regret, learning with non-additive global cost functions, Blackwell's approachability, calibration of forecasters, adaptive regret, and more. We show that learnability in all these situations is due to control of the same three quantities: a martingale convergence term, a term describing the ability to perform well if future is known, and a generalization of sequential Rademacher complexity, studied in (Rakhlin, Sridharan, Tewari, 2010). Since we directly study complexity of the problem instead of focusing on efficient algorithms, we are able to improve and extend many known results which have been previously derived via an algorithmic construction.

研究の動機と目的

外部レジスト、内部レジスト、キャリブレーション、ブラックウェルの到達可能性といった多様なオンライン学習パフォーマンス指標を、単一の理論的枠組みで統一すること。
アルゴリズム的構築ではなく、マーティングール収束、将来の知識に基づくパフォーマンス、逐次ラデマッハ複雑度という3つの基本的複雑度項の制御を通じて学習可能性を特徴付けること。
オンライン学習における既知の結果を回復・拡張・改善すること、特に従来のアルゴリズム的手法が不適切または劣効率であった状況において。
アルゴリズム固有の設計に依存せずに、無限次元バナッハ空間におけるキャリブレーションゲームと到達可能性について、確実な収束性とハナン一貫性を確立すること。

提案手法

パフォーマンスを報酬変換写像で測る反復ゲームとしてオンライン学習を形式化し、外部レジストを広範なパフォーマンス指標クラスに一般化する。
学習可能性を支配する3つの主要な複雑度項を同定する：マーティングール収束、将来の知識下でのパフォーマンス、逐次ラデマッハ複雑度。
確率的乱数化（ラデマッハ・コーシー）と被覆論法を用いて関数クラス上の上界を制御し、加法的でないおよび滑らかなコスト関数への一般化を可能にする。
集中不等式（例：ホーフィング型の不等式）を用いて逸脱確率を制御し、高確率レジストバウンドを導出する。
ダブルイング・トリックと指数モーメント制御（$\mathbb{E}[\exp\{K\mathbf{R}_T^2\}]$ を用いて、高確率バウンドを確実な収束保証に変換する。
特に行動が有限の場合に有用な、逐次リトルストーン次元を活用してポリシークラスの複雑度を制限する。

実験結果

リサーチクエスチョン

RQ1オンライン学習における学習可能性は、内部レジスト、キャリブレーション、到達可能性といった多様なパフォーマンス指標において一様に特徴付け可能か？
RQ2外部レジストを越えて学習可能性を保証するための最小限の複雑度条件は何か？
RQ32つ以上の結果を伴うキャリブレーションについて、$O(T^{-1/2})$ の収束レートを確立できるか？
RQ4バナッハ空間におけるブラックウェルの到達可能性は、マーティングール収束とワンショット到達可能性と同値か？
RQ5明示的なアルゴリズム的構築に依存せずに、確実なハナン一貫性を達成できるか？

主な発見

本稿は、2つ以上の結果を伴うキャリブレーション予測における $O(T^{-1/2})$ のレジストバウンドを確立し、マノールとストルツの先行研究を改善する。
分離可能なバナッハ空間において、ブラックウェルの到達可能性が成り立つのは、マーティングール収束が成り立ちかつワンショット到達可能性条件を満たすとき、かつそのときに限ることを証明する。
フレームワークにより、確実なレジストの収束が得られる：$\limsup_{T\to\infty} \frac{\sqrt{T}}{\sqrt{3k\log(2T) + \frac{ck^4}{2}\log T}} \cdot \mathbf{R}_T \leq 60$ ほぼ確実に。
逐次ラデマッハ複雑度が、すべての考察対象パフォーマンス指標における学習可能性を支配する中心的複雑度測度であることが示された。
アルゴリズム中心の推論を避けることで、アルゴリズム的構築が未知または不適切な状況においても学習可能性の証明が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。