QUICK REVIEW

[論文レビュー] Scalable Global Optimization via Local Bayesian Optimization

David Eriksson, Michael Pearce|arXiv (Cornell University)|Oct 3, 2019

Advanced Bandit Algorithms Research被引用数 144

ひとこと要約

本論文は TuRBO を紹介する。局所モデルに基づくベイズ最適化フレームワークで、独立した局所 GP を持つ複数の信頼領域と、グローバルなサンプル割り当てを暗黙的なバンディットで行い、高次元でコストの高いブラックボックス関数の性能を向上させる。

ABSTRACT

Bayesian optimization has recently emerged as a popular method for the sample-efficient optimization of expensive black-box functions. However, the application to high-dimensional problems with several thousand observations remains challenging, and on difficult problems Bayesian optimization is often not competitive with other paradigms. In this paper we take the view that this is due to the implicit homogeneity of the global probabilistic models and an overemphasized exploration that results from global acquisition. This motivates the design of a local probabilistic approach for global optimization of large-scale high-dimensional problems. We propose the $\texttt{TuRBO}$ algorithm that fits a collection of local models and performs a principled global allocation of samples across these models via an implicit bandit approach. A comprehensive evaluation demonstrates that $\texttt{TuRBO}$ outperforms state-of-the-art methods from machine learning and operations research on problems spanning reinforcement learning, robotics, and the natural sciences.

研究の動機と目的

高次元でコストの高いブラックボックス関数のグローバル最適化を動機付け、グローバル・サロゲートモデルの限界に対処する。
過探索を避けつつ、異質性と高次元性を扱うスケーラブルな局所ベイズ最適化フレームワークを提案する。
ロボティクス、強化学習、宇宙論、合成ベンチマークなどで TuRBO の経験的優位性を示す。

提案手法

各自の信頼領域 (TR) で動作する複数の局所ガウス過程代替を維持する。
成功/失敗回数を用いてTRサイズを動的に調整し、探索と利用のバランスを取る。
Thompson サンプリングを用いて TR 内外のバッチ候補を選択し、暗黙的なマルチアーム・バンディット型のグローバル割り当てを実現する。
各TR を独立したバンディットアームとして扱い、探索すべき領域へサンプル割り当てを導く。
BO のバリエーション、CMA-ES、ランダム探索など、多様なタスクで広範なベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1局所的確率モデルの集合と暗黙的なバンディット割り当てが、高次元でコストの高い関数に対してグローバルサロゲートモデルを上回るか？
RQ2動的な信頼領域サイズと並列局所探索は、実際にスケーラブルで堅牢なグローバル最適化を実現できるか？
RQ3TuRBO は実世界のタスクにおいて、最新のベイズ最適化、進化戦略、確率的最適化と比較してどうか？
RQ4バッチサイズがウォールクロック効率と解の品質に与える影響は？
RQ5局所モデルは、予測精度とハイパーパラメータ学習の観点で、単一のグローバルモデルより利点があるか？

主な発見

TuRBO は robotics、強化学習、自然科学の分野で優れた解を一貫して見つけ、ベースラインをしばしば上回る。
バッチサイズの増加とともに線形の速度向上を観察しつつ、解の品質を損なわない。
局所GP は、単一のグローバルGP より予測性能が高く、ハイパーパラメータの設定にも柔軟性がある。
複数の小さな TR は多峰性と多様な最適解を捉え、バンディット風の割り当てを介して有効なグローバル探索を可能にする。
複数領域を持つ TuRBO（m>1）は、特に高次元問題で単一領域のバリアントより総じて優れている。
大規模バッチ実験は、解の品質を維持しつつウォールクロックのほぼ線形の高速化をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。