QUICK REVIEW

[論文レビュー] Online Learning with Predictable Sequences

Alexander Rakhlin, Karthik Sridharan|arXiv (Cornell University)|Aug 18, 2012

Advanced Bandit Algorithms Research参考文献 16被引用数 148

ひとこと要約

本稿では、結果が既知のトレンドに従い、ノイズが加わる予測可能な系列を活用するオンライン学習アルゴリズムを導入し、最悪ケースの保証よりもタイトなレグレットバウンドを達成する。予測可能なプロセスに関する事前知識を組み込むことで、良性の系列に適応しつつ、敵対的ノイズに対してもロバスト性を維持し、時系列や株価予測のような設定で改善された性能を達成する。

ABSTRACT

We present methods for online linear optimization that take advantage of benign (as opposed to worst-case) sequences. Specifically if the sequence encountered by the learner is described well by a known "predictable process", the algorithms presented enjoy tighter bounds as compared to the typical worst case bounds. Additionally, the methods achieve the usual worst-case regret bounds if the sequence is not benign. Our approach can be seen as a way of adding prior knowledge about the sequence within the paradigm of online learning. The setting is shown to encompass partial and side information. Variance and path-length bounds can be seen as particular examples of online learning with simple predictable sequences. We further extend our methods and results to include competing with a set of possible predictable processes (models), that is "learning" the predictable process itself concurrently with using it to obtain better regret guarantees. We show that such model selection is possible under various assumptions on the available feedback. Our results suggest a promising direction of further research with potential applications to stock market and time series prediction.

研究の動機と目的

標準的なオンライン学習手法が提供する最悪ケースのレグレットバウンドに限界があること、特に規則的または構造的な系列では楽観的でないことを解決する。
観測された系列が近似的に予測可能（既知のプロセス＋ノイズ）である場合に、タイトなレグレットバウンドを達成できる計算的に実行可能なアルゴリズムを開発する。
系列に予測可能な構造がない場合でも、標準的な最悪ケースのレグレットバウンドを維持し、ロバスト性を保証する。
複数の候補となる予測可能なプロセスの間でのモデル選択を可能にするフレームワークを拡張し、最適なプロセスを最適化と同時に学習する。
部分的および補助情報設定（オンライン凸最適化やバンディット問題を含む）への応用を可能にする。

提案手法

系列を予測可能なプロセス $M_t$ と敵対的ノイズに分解し、$M_t$ からの逸脱が $\sigma_t$ で有界であると仮定する。
対称化の議論と制約付き敵対的解析を用いて、合計分散 $\sum_{t=1}^T \sigma_t^2$ に基づくタイトなレグレットバウンドを導出する。
$\sum_{t=1}^T \sigma_t^2$ の事前知識が不要であるように、ダブルイングトリックを適用し、適応的レグレットバウンドを実現する。
自己適合的バリア関数を用いた線形最適化への還元により、オンライン凸最適化への適用を適応的に拡張する。
単一のシンプレックス上での線形バンディット問題に還元することでマルチアームバンディットへの拡張を実現し、観測された報酬から不偏推定器を用いる。
シンプレックス上での自己適合的バリア関数を用いたSCRiBLeアルゴリズムを適用し、バンディット設定でのレグレットバウンドを導出。$O(\eta^{-1} \log dT)$ の時間および次元依存性を達成する。

実験結果

リサーチクエスチョン

RQ1系列が近似的に予測可能（既知のトレンド＋有界ノイズ）である場合、オンライン学習アルゴリズムがよりタイトなレグレットバウンドを達成できるか？
RQ2予測可能なプロセスに関する事前知識をオンライン学習に統合する方法は何か？ただし、最悪ケースのロバスト性を損なわないようにする。
RQ3データに最も適合する予測可能なプロセス（モデル）を同時に学習しつつ、低いレグレットを達成することは可能か？
RQ4このフレームワークを、オンライン凸最適化やバンディットフィードバックのような部分的および補助情報設定に拡張可能か？
RQ5予測可能なプロセスが未知だが、候補が複数存在する場合、達成可能な最もタイトなレグレットバウンドは何か？

主な発見

系列が予測可能なプロセスに近い場合、提案アルゴリズムは $O\left(\sum_{t=1}^T \sigma_t^2\right)^{1/2}$ の形のレグレットバウンドを達成し、最悪ケースの $O(\sqrt{T})$ バウンドよりも顕著に改善される。
予測可能な構造が存在しない場合でも、標準的な最悪ケースのレグレットバウンド $O(\sqrt{T})$ を維持し、ロバスト性が保証される。
複数の予測可能なプロセス間でのモデル選択が可能であり、マルチアームバンディット設定ではレグレットが $O(\eta^{-1} \log(dT))$ のスケーリングを示す。
アルゴリズムは適応的である：$\sum_{t=1}^T \sigma_t^2$ の事前知識が不要であるため、ダブルイングトリックのおかげで可能である。
自己適合的バリア関数を用いた線形最適化への還元により、オンライン凸最適化へのフレームワークの拡張が可能である。
マルチアームバンディットでは、期待レグレットが $\frac{1}{1 - 4\eta s d^2} \left( \inf_j \sum_{t=1}^T \langle e_j, x_t \rangle + d \eta^{-1} \log(dT) \right)$ で有界であることを示し、実用的応用性を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。