QUICK REVIEW

[論文レビュー] Online Learning with Feedback Graphs: Beyond Bandits

Noga Alon, Nicolò Cesa‐Bianchi|arXiv (Cornell University)|Feb 26, 2015

Advanced Bandit Algorithms Research参考文献 14被引用数 55

ひとこと要約

本稿は、フィードバックグラフを用いたオンライン学習の統一的枠組みを導入し、それらを強く観測可能、弱く観測可能、観測不可能の3種類に分類する。それぞれのタイプについて、$ olimits ilde{\Theta}(\alpha^{1/2}T^{1/2})$、$ olimits ilde{\Theta}(\delta^{1/3}T^{2/3})$、線形のレジストを示すミニマックスレジスト境界を確立し、グラフ構造が学習の難易度をどのように決定するかを明らかにするとともに、時間的に変化するフィードバックグラフに対しても、情報ありと情報なしの設定で異なるレジスト行動を拡張する。

ABSTRACT

We study a general class of online learning problems where the feedback is specified by a graph. This class includes online prediction with expert advice and the multi-armed bandit problem, but also several learning problems where the online player does not necessarily observe his own loss. We analyze how the structure of the feedback graph controls the inherent difficulty of the induced $T$-round learning problem. Specifically, we show that any feedback graph belongs to one of three classes: strongly observable graphs, weakly observable graphs, and unobservable graphs. We prove that the first class induces learning problems with $\widetildeΘ(α^{1/2} T^{1/2})$ minimax regret, where $α$ is the independence number of the underlying graph; the second class induces problems with $\widetildeΘ(δ^{1/3}T^{2/3})$ minimax regret, where $δ$ is the domination number of a certain portion of the graph; and the third class induces problems with linear minimax regret. Our results subsume much of the previous work on learning with feedback graphs and reveal new connections to partial monitoring games. We also show how the regret is affected if the graphs are allowed to vary with time.

研究の動機と目的

フィードバックグラフの構造がオンライン学習問題の本質的難易度をどのように制御するかを理解すること。
構造的性質に基づいて、フィードバックグラフを強く観測可能、弱く観測可能、観測不可能の3つのカテゴリに分類すること。
各カテゴリに対してタイトなミニマックスレジスト境界を導出し、独立数$\alpha$と支配数$\delta$が性能にどのように影響するかを示すこと。
時間的に変化するフィードバックグラフがレジストに与える影響を分析し、情報ありと情報なしの観測モデルの違いを区別すること。
オンライン学習におけるフィードバックグラフと部分監視ゲームとの間の関係を明らかにすること。

提案手法

著者らは、行動を選択した後にどの損失が観測されるかを示す有向グラフとしてフィードバックグラフを定義する。
観測可能性に基づいてグラフを分類する：自己から到達可能なパスが存在する場合を強く観測可能とし、すべてのノードが観測可能だが自己観測が保証されない場合を弱く観測可能とし、それ以外を観測不可能と定義する。
強く観測可能なグラフに対しては、独立数$\alpha$を用いて$\widetilde{\Theta}(\alpha^{1/2}T^{1/2})$のレジストを達成する修正版指数重みアルゴリズムを用いる。
弱く観測可能なグラフに対しては、時間依存の探索集合$D_t$（最小の弱い支配集合）を用いた2段階戦略を導入し、$\widetilde{\Theta}(\delta^{1/3}T^{2/3})$のレジストを達成する。
時間的に変化するグラフに対応するため、各ラウンドごとに近傍の定義と探索集合を更新するようにアルゴリズムを適応し、グラフが事前に分かっている（情報あり）か、行動選択後にのみ分かっている（情報なし）かに応じて処理を変更する。
上界と下界を用いてタイトなレジスト境界を証明し、特に情報なしの弱く観測可能な場合に$\Omega(K^{1/3}T^{2/3})$の新たな下界を確立する。

実験結果

リサーチクエスチョン

RQ1フィードバックグラフの構造は、オンライン学習におけるミニマックスレジストにどのように影響するか？
RQ2強く観測可能、弱く観測可能、観測不可能のフィードバックグラフは、学習可能性の観点からどのように区別されるか？
RQ3独立数$\alpha$や支配数$\delta$といったグラフパラメータを用いてミニマックスレジストを境界づけることができるか？
RQ4フィードバックグラフの観測タイミング（情報あり vs 情報なし）は、時間的に変化する設定におけるミニマックスレジストにどのように影響するか？
RQ5自己ループが欠落している場合、探索と観測の間の根本的トレードオフは何か？

主な発見

強く観測可能なグラフのミニマックスレジストは$\widetilde{\Theta}(\alpha^{1/2}T^{1/2})$であり、$\alpha$はフィードバックグラフの独立数である。
弱く観測可能なグラフのミニマックスレジストは$\widetilde{\Theta}(\delta^{1/3}T^{2/3})$であり、$\delta$は最小の弱い支配集合のサイズである。
観測不可能なグラフは線形のミニマックスレジストを引き起こし、このようなフィードバック構造下では学習が本質的に不可能であることを示唆する。
時間的に変化する弱く観測可能なグラフにおいて情報ありモデルでは、レジスト境界が$\widetilde{\Theta}\left(\left(\frac{1}{T}\sum_{t=1}^T \delta_t\right)^{1/3} T^{2/3}\right)$にスケーリングする。
時間的に変化する弱く観測可能なグラフにおいて情報なしモデルでは、ミニマックスレジストが$\widetilde{\Theta}(K^{1/3}T^{2/3})$に増加し、これはタイトであり、下界$\frac{1}{16}K^{1/3}T^{2/3}$と一致する。
本稿は、自己ループ（すなわち、自らの損失を観測しないこと）が欠落している場合、特に情報なし設定において、プレイヤーがどの行動がターゲット行動の損失を明らかにするかを推測しなければならないため、レジストを著しく増大させることを確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。