[論文レビュー] Scalable Generalized Linear Bandits: Online Computation and Hashing
本稿では、一般化線形バンディット(GLBs)のスケーラビリティを向上させるため、一般化線形オンラインから信頼集合への変換(GLOC)フレームワークを導入することで、オンライン学習を用いて1ラウンドあたり定数空間および定数時間計算量を達成するスケーラブルなアルゴリズムを提案する。さらに、局所性に敏感なハッシュ(LSH)を用いたハッシュ互換性を持つアルゴリズムを導入し、アーム数に対するサブ線形時間計算量を達成し、$O(d^{5/4})$のレグレットバウンドを達成する。これは従来の$O(d^{3/2})$のバウンドを改善したものであり、最適化されたハッシュを用いて高速な近似内積計算を実現する。
Generalized Linear Bandits (GLBs), a natural extension of the stochastic linear bandits, has been popular and successful in recent years. However, existing GLBs scale poorly with the number of rounds and the number of arms, limiting their utility in practice. This paper proposes new, scalable solutions to the GLB problem in two respects. First, unlike existing GLBs, whose per-time-step space and time complexity grow at least linearly with time $t$, we propose a new algorithm that performs online computations to enjoy a constant space and time complexity. At its heart is a novel Generalized Linear extension of the Online-to-confidence-set Conversion (GLOC method) that takes \emph{any} online learning algorithm and turns it into a GLB algorithm. As a special case, we apply GLOC to the online Newton step algorithm, which results in a low-regret GLB algorithm with much lower time and memory complexity than prior work. Second, for the case where the number $N$ of arms is very large, we propose new algorithms in which each next arm is selected via an inner product search. Such methods can be implemented via hashing algorithms (i.e., "hash-amenable") and result in a time complexity sublinear in $N$. While a Thompson sampling extension of GLOC is hash-amenable, its regret bound for $d$-dimensional arm sets scales with $d^{3/2}$, whereas GLOC's regret bound scales with $d$. Towards closing this gap, we propose a new hash-amenable algorithm whose regret bound scales with $d^{5/4}$. Finally, we propose a fast approximate hash-key computation (inner product) with a better accuracy than the state-of-the-art, which can be of independent interest. We conclude the paper with preliminary experimental results confirming the merits of our methods.
研究の動機と目的
- 時間枠とアーム数の観点から一般化線形バンディット(GLBs)のスケーラビリティを向上させ、実用的導入を可能にする。
- ラウンド数$t$に比例して増加する従来のGLBアルゴリズムの線形空間および時間計算量の問題を克服する。
- ハッシュ技術を用いてアーム数$N$に対してサブ線形時間計算量を達成する手法を開発する。
- ハッシュ互換性を維持したまま、ハッシュ互換GLBアルゴリズムのレグレットバウンドを$O(d^{3/2})$から$O(d^{5/4})$に低減する。
- ハッシュベースGLBアルゴリズムに使用可能な高速かつ高精度な近似内積計算手法を設計する。
提案手法
- 任意のオンライン学習アルゴリズムを低レグレットのGLBアルゴリズムに変換できる一般化線形オンラインから信頼集合への変換(GLOC)フレームワークを提案する。
- オンラインニュートンステップアルゴリズムにGLOCを適用し、$t$に依存しない1ラウンドあたり定数空間および定数時間計算量を達成する。
- GLOCのトムソンサンプリング拡張に基づくハッシュ互換GLBアルゴリズムを設計し、局所性に敏感なハッシュ(LSH)を用いて$N$に対してサブ線形時間計算量を実現する。
- 内積推定のための最適化された射影ベクトルを用いた、最先端技術を上回る精度の高い新しいハッシュキー計算手法を導入する。
- 高次元空間における候補アームの全列挙を避けるために、マルチプローブハッシュ技術を効果的に活用する。
- 正規分布仮定に基づく射影ベクトルを活用し、高次元においてL1ベースのハッシュがL2よりも低い分散を示す理論的根拠を提示する。
実験結果
リサーチクエスチョン
- RQ1時間枠$t$に依存しない1ラウンドあたり定数空間および定数時間計算量を達成できるGLBアルゴリズムを設計できるか?
- RQ2ハッシュを用いてアーム数$N$に対してサブ線形時間計算量を達成しつつ、低レグレットを維持できるか?
- RQ3ハッシュ互換GLBアルゴリズムのレグレットバウンドを$O(d^{3/2})$から$O(d^{5/4})$に低減できるか?
- RQ4ハッシュベースGLBアルゴリズムに使用可能なより高速で高精度な近似内積計算手法を設計できるか?
- RQ5高次元GLB設定において、ハッシュスキーム(L1対L2)の選択が分散およびパフォーマンスに与える影響は何か?
主な発見
- 提案されたGLOCフレームワークは、1ラウンドあたり定数空間および定数時間計算量を達成し、従来のGLB手法で見られる$t$に比例する増加を排除する。
- オンラインニュートンステップを用いたGLOCベースのアルゴリズムは、$O(d)$のレグレットバウンドを達成し、従来の$O(d^{3/2})$のレグレットバウンドを持つ手法を上回る。
- 新規に提案されたハッシュ互換アルゴリズムは、$O(d^{5/4})$のレグレットバウンドを達成し、ハッシュ互換GLB手法における従来の$O(d^{3/2})$のバウンドとのギャップを埋める。
- 提案された近似内積計算手法は、特に高次元設定において、最先端技術を上回る高い精度を示す。
- 実験的結果は、提案手法の実用的利点を裏付け、大規模バンディット設定において高速な推論と低いレグレットを実現している。
- 理論的分析により、正規分布に従う高次元設定においてL1ベースのハッシュがL2よりも低い分散を示すことが示され、本フレームワークへの適用の妥当性が裏付けられる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。