QUICK REVIEW

[論文レビュー] A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning

Eric Brochu, Vlad M. Cora|arXiv (Cornell University)|Dec 12, 2010

Advanced Bandit Algorithms Research参考文献 75被引用数 2,138

ひとこと要約

このチュートリアルは、費用の高いコスト関数に対するベイズ最適化の包括的な導入を提供し、ガウス過程先行、獲得関数、およびアクティブユーザーモデリングと階層強化学習に適用された2つの拡張を詳述する。

ABSTRACT

We present a tutorial on Bayesian optimization, a method of finding the maximum of expensive cost functions. Bayesian optimization employs the Bayesian technique of setting a prior over the objective function and combining it with evidence to get a posterior function. This permits a utility-based selection of the next observation to make on the objective function, which must take into account both exploration (sampling from areas of high uncertainty) and exploitation (sampling areas likely to offer improvement over the current best observation). We also present two detailed extensions of Bayesian optimization, with experiments---active user modelling with preferences, and hierarchical reinforcement learning---and a discussion of the pros and cons of Bayesian optimization based on our experiences.

研究の動機と目的

高価なブラックボックス目的関数を最大化するためのデータ効率の高い手法としてのベイズ最適化を導入する。
ガウス過程が未知の目的関数の代理モデルとして機能する方法を説明する。
探索と利用のバランスをとって評価点を選択する獲得関数を説明する。
嗜好を伴うアクティブユーザーモデリングと階層強化学習へのベイズ最適化の拡張を提示する。

提案手法

観測で更新されてfの事後分布を形成する目的関数の事前分布を持つベイズフレームワークを説明する。
平均 m、共分散 k を持つガウス過程の事前分布を用いて f をモデル化し、予測 μ と σ を導出する。
期待利得を最大化して次の評価を選択する獲得関数（例: EI, PI, UCB）を定義する。
カーネルの選択（平方指数、Matérn、ARD）とハイパーパラメータ学習について論じる。
ガウス観測ノイズの処理とそれが後の事後分布に与える影響を説明する。
獲得関数が探索と利用のトレードオフをどのように実現するかを示す。

実験結果

リサーチクエスチョン

RQ1費用の高くブラックボックスなコスト関数のグローバル最大値を、ベイズ最適化はどのように効率的に見つけられるか。
RQ2実務において、滑らかな目的関数を最もよくモデル化する事前分布とカーネルは何か。
RQ3さまざまな獲得関数（EI、PI、UCB）は探索と利用のバランスをとる際にどのように機能するか。
RQ4ベイズ最適化をアクティブユーザーモデリングと階層的強化学習へどのように拡張できるか。

主な発見

ベイズ最適化は f とその不確実性をモデル化するGP代替モデルを用い、獲得関数を介してサンプリングを導く。
EI、PI、UCB 獲得関数は探索と利用のバランスをとる実用的な機構を提供する。
ARDとMatérnカーネルは関数の滑らかさのモデリングと関連次元の特定に柔軟性を提供する。
このチュートリアルは嗜好を伴うアクティブユーザーモデリングと階層制御問題への拡張を実演する。
観測ノイズは考慮され、事後更新と獲得決定に影響を与える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。