QUICK REVIEW

[論文レビュー] Gamification of Pure Exploration for Linear Bandits

Rémy Degenne, Pierre Ménard|arXiv (Cornell University)|Jul 2, 2020

Advanced Bandit Algorithms Research被引用数 23

ひとこと要約

本稿では、線形バンディットにおける純探索のための、初めての漸近的最適な固定信頼度アルゴリズムを提示する。著者らは、G-最適性、伝達的最適性、漸近的最適性を統一するための新しいゲーム理論的視点を用いる。問題を2人零和ゲームに再定式化することで、完全な最適実験設計の計算を回避し、既知の病理的例に起因する既存手法の制限を避ける。その結果、最小限のサンプル複雑性を達成する。

ABSTRACT

We investigate an active pure-exploration setting, that includes best-arm identification, in the context of linear stochastic bandits. While asymptotically optimal algorithms exist for standard multi-arm bandits, the existence of such algorithms for the best-arm identification in linear bandits has been elusive despite several attempts to address it. First, we provide a thorough comparison and new insight over different notions of optimality in the linear case, including G-optimality, transductive optimality from optimal experimental design and asymptotic optimality. Second, we design the first asymptotically optimal algorithm for fixed-confidence pure exploration in linear bandits. As a consequence, our algorithm naturally bypasses the pitfall caused by a simple but difficult instance, that most prior algorithms had to be engineered to deal with explicitly. Finally, we avoid the need to fully solve an optimal design problem by providing an approach that entails an efficient implementation.

研究の動機と目的

線形バンディットにおける最良腕同定のための、長年の課題である漸近的最適な固定信頼度アルゴリズムの設計に取り組む。
線形バンディットフレームワーク内でのG-最適性、伝達的最適性、漸近的最適性という異なる最適性の概念を統一し、明確化する。
計算上不可能な場合が多い完全な最適実験設計問題を解かずに、効率的なアルゴリズムを開発する。
従来の手法が特別に設計された修正を必要としている既知の病理的例を、提案手法が自然に回避できることを示す。

提案手法

エージェントとネイチャーの間の2人零和ゲームとして、線形バンディットにおける純探索問題を再定式化し、最適性のゲーム理論的分析を可能にする。
信頼区間と推定された最適腕の割合に基づく動的探索を実現する、Track-and-Stopの原則にインspiredされた新しいサンプリングルールを導入する。
完全な最適設計問題を解かずに、最適割り当て重みを近似するためのフランク＝ウォルフに基づくヒューリスティックを用いることで、計算コストを顕著に削減する。
双対更新を伝達的集合に組み込んだSaddle Frank-Wolfeの変種を提案し、一般のAB設計において収束性と安定性を向上させる。
高価な最適化ステップを回避しつつも実用的性能を維持できる、グリーディでインクリメンタルなバージョンのアルゴリズムを実装する。
δ-正しい性質とサンプル複雑性に関する理論的保証を提供し、固定信頼度設定下での漸近的最適性を示す。

実験結果

リサーチクエスチョン

RQ1完全な最適設計問題の解法を必要とせずに、線形バンディットにおける固定信頼度純探索アルゴリズムで漸近的最適性を達成できるか？
RQ2線形バンディット設定において、G-最適性、伝達的最適性、漸近的最適性という異なる最適性の概念はどのように関係しているか？
RQ3線形バンディットにおける最適サンプリングルールの構造的性質は何か。それらは、計算的に高価な最適設計の計算を回避するためにどのように活用できるか？
RQ4提案されたアルゴリズムは、従来のアプローチに苦しめられた既知の病理的例を自然に回避するか？
RQ5最適設計の効率的でグリーディな近似は、実用的な文脈で近似的に最適なサンプル複雑性を達成できるか？

主な発見

提案されたアルゴリズムは、線形バンディットにおける固定信頼度純探索で初めて漸近的最適性を達成した。サンプル複雑性の理論的下界に一致する。
ゲーム理論的再定式化と効率的なフランク＝ウォルフ風近似により、完全な最適設計の計算を回避する。
実験結果から、LinGapE や XY-Adaptive といった既存手法よりもサンプル効率に優れ、特に高次元設定で顕著な性能向上を示す。
Saddle Frank-Wolfe ヒューリスティックは、標準的なフランク＝ウォルフが失敗する場合でも、B⋆(θ) や Bdir といったさまざまな伝達的集合において安定した収束を示す。
従来の手法が特別な修正を必要としている既知の病理的例を自然に回避できることから、より強固な理論的基盤を有している可能性が示唆される。
グリーディでインクリメンタルな実装により、計算オーバーヘッドを著しく削減しながらも、優れた性能を維持でき、実世界への実装に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。