QUICK REVIEW

[論文レビュー] Second-Order Kernel Online Convex Optimization with Adaptive Sketching

Daniele Calandriello, Alessandro Lazaric|arXiv (Cornell University)|Jun 15, 2017

Stochastic Gradient Optimization Techniques被引用数 23

ひとこと要約

本稿では、適応的行列スケッチを用いて計算コストを低減することで、$Ó(d_{\text{eff}}\log T)$のレグレット（$T$に関して対数的）を達成する第二階層のカーネルオンライン凸最適化手法であるKernel Online Newton Step (KONS) を導入する。提案されたSketched-KONS手法は、計算時間と記憶領域の複雑さを$\gamma^2$倍に削減するが、レグレットは最大$1/\gamma$倍にしか増加しないため、カーネル空間における効率的で低レグレットのオンライン学習を可能にする。

ABSTRACT

Kernel online convex optimization (KOCO) is a framework combining the expressiveness of non-parametric kernel models with the regret guarantees of online learning. First-order KOCO methods such as functional gradient descent require only $\mathcal{O}(t)$ time and space per iteration, and, when the only information on the losses is their convexity, achieve a minimax optimal $\mathcal{O}(\sqrt{T})$ regret. Nonetheless, many common losses in kernel problems, such as squared loss, logistic loss, and squared hinge loss posses stronger curvature that can be exploited. In this case, second-order KOCO methods achieve $\mathcal{O}(\log( ext{Det}(\boldsymbol{K})))$ regret, which we show scales as $\mathcal{O}(d_{ ext{eff}}\log T)$, where $d_{ ext{eff}}$ is the effective dimension of the problem and is usually much smaller than $\mathcal{O}(\sqrt{T})$. The main drawback of second-order methods is their much higher $\mathcal{O}(t^2)$ space and time complexity. In this paper, we introduce kernel online Newton step (KONS), a new second-order KOCO method that also achieves $\mathcal{O}(d_{ ext{eff}}\log T)$ regret. To address the computational complexity of second-order methods, we introduce a new matrix sketching algorithm for the kernel matrix $\boldsymbol{K}_t$, and show that for a chosen parameter $γ\leq 1$ our Sketched-KONS reduces the space and time complexity by a factor of $γ^2$ to $\mathcal{O}(t^2γ^2)$ space and time per iteration, while incurring only $1/γ$ times more regret.

研究の動機と目的

第二階層のカーネルオンライン凸最適化（KOCO）手法は、反復ごとに時間と空間計算量が$\\mathcal{O}(t^2)$に比例するため、その高い計算コストを軽減すること。
第二階層の曲率情報（Hessian）を活用することで、KOCOで$\mathcal{O}(d_{\text{eff}}\log T)$の対数的レグレットスケーリングを達成すること。これは、第一階層手法では未利用の情報である。
第二階層KOCOの複雑さを低下させるスケッチに基づくアプローチを開発し、特に有効次元が小さい問題においても、レグレット性能を損なわずに実現すること。
既存の辞書ベースのスケッチ手法に起因する制限を克服すること。これらの手法は、適応性が低く、予算制約があるため、オンライン設定では対数的レグレットを達成できない。

提案手法

第二階層KOCOアルゴリズムとして、損失関数のヘッセ行列を用いてモデルを適応的に更新するKernel Online Newton Step (KONS) を提案。これにより、$\mathcal{O}(d_{\text{eff}}\log T)$のレグレットを達成する。
カーネル行列$\mathbf{K}_t$に対して、新たな適応的行列スケッチアルゴリズムを導入。パラメータ$\gamma \leq 1$を用いることで、時間的・空間的計算量を$\gamma^2$倍に削減する。
KONSにおけるヘッセ行列の近似にスケッチを適用。これにより、元の第二階層手法と比較して、最大$1/\gamma$倍のレグレット増加に抑えられる。
カーネル行列の低ランク近似を動的に維持するスケッチ戦略を採用。これにより、効率的な更新と記憶が可能になる。
レグレットを$R_G$（勾配に基づく項）と$R_D$（最適解からの差分）に分解。適応的スケッチが両項を効果的に制御できることを示す。
辞書ベースのスケッチ手法が、レグレット最小化、記憶量制御、重み減衰の回避という、矛盾する目的を満たせないため、オンライン設定では対数的レグレットを達成できないことを実証する。

実験結果

リサーチクエスチョン

RQ1第二階層KOCO手法は、計算効率を維持したまま、カーネル空間で対数的レグレットスケーリングを達成できるか？
RQ2行列スケッチを第二階層KOCOに適応させることで、時間的・空間的複雑さを低下させつつ、レグレットの増加を最小限に抑える方法は何か？
RQ3既存の辞書ベースのスケッチ手法は、バッチ設定では成功しているが、なぜオンライン設定では対数的レグレットを達成できないのか？
RQ4適応的スケッチ戦略を設計することで、オンライン設定における動的モデル更新を可能にしながら、低レグレットを維持できるか？

主な発見

提案されたSketched-KONS手法は、$\mathcal{O}(d_{\text{eff}}\log T)$のレグレットを達成し、完全なKONSの最適第二階層レグレットバウンドと一致する。ここで$d_{\text{eff}}$は問題の有効次元である。
パラメータ$\gamma$を用いた適応的スケッチを適用することで、反復ごとの時間的・空間的計算量を$\mathcal{O}(t^2)$から$\mathcal{O}(t^2\gamma^2)$に削減する。
Sketched-KONSのレグレットは、完全なKONS手法と比較して最大$1/\gamma$倍にしか増加しないため、複雑さとレグレットの間で調整可能なトレードオフが可能である。
反例により、辞書ベースのスケッチ手法が、重みスケジューリングと予算制約の矛盾する目的のため、オンライン設定では対数的レグレットを達成できないことが示された。
解析により、第二階層手法が第一階層手法よりも曲率をより効果的に活用でき、損失関数が強く凸である場合、レグレットを$\mathcal{O}(\sqrt{T})$から$\mathcal{O}(d_{\text{eff}}\log T)$に低減できることを明らかにした。
固定辞書アプローチとは対照的に、適応的スケッチは、オンラインカーネル学習におけるより優れた適応性と性能を実現できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。