QUICK REVIEW

[論文レビュー] Preferential Bayesian Optimization

Javier González, Zhenwen Dai|arXiv (Cornell University)|Apr 12, 2017

Advanced Bandit Algorithms Research参考文献 11被引用数 36

ひとこと要約

この論文は、直接の関数評価の代わりに、2項比較によるみだりのフィードバックのみを用いてブラックボックス関数を最適化するフレームワークである、優先的ベイズ最適化（PBO）を紹介する。PBOはベルヌーイ尤度を用いたガウス過程を用いて、好みの確率をモデル化し、コペランド期待改善やデュエル・スミスン・サンプリングといった、探索と活用のバランスを効率的にとる新しい獲得関数を採用することで、最先端の手法と比較して最適解に到達するための比較回数を顕著に削減する。

ABSTRACT

Bayesian optimization (BO) has emerged during the last few years as an effective approach to optimizing black-box functions where direct queries of the objective are expensive. In this paper we consider the case where direct access to the function is not possible, but information about user preferences is. Such scenarios arise in problems where human preferences are modeled, such as A/B tests or recommender systems. We present a new framework for this scenario that we call Preferential Bayesian Optimization (PBO) which allows us to find the optimum of a latent function that can only be queried through pairwise comparisons, the so-called duels. PBO extends the applicability of standard BO ideas and generalizes previous discrete dueling approaches by modeling the probability of the winner of each duel by means of a Gaussian process model with a Bernoulli likelihood. The latent preference function is used to define a family of acquisition functions that extend usual policies used in BO. We illustrate the benefits of PBO in a variety of experiments, showing that PBO needs drastically fewer comparisons for finding the optimum. According to our experiments, the way of modeling correlations in PBO is key in obtaining this advantage.

研究の動機と目的

直接の関数評価ではなく、間接的で好みに基づくフィードバック（例：2項比較）が唯一利用可能な状況におけるブラックボックス関数の最適化を解決すること。
A/Bテストやレコメンデーションシステムなど、人間やシステムの好みが主なフィードバックメカニズムである状況において、ベイズ最適化を拡張すること。
対の間の相関を捉えることができる潜在的好み関数をガウス過程でモデル化し、サンプル効率を向上させること。
デュエルフィードバックに特化した獲得関数を開発し、グリーディーやバンディットベースの手法よりも探索と活用のバランスをより効果的にとること。
好みデータの相関をモデル化することで、収束が速くなり、最適化性能が向上することを実証すること。

提案手法

PBOは、ベルヌーイ尤度を用いたガウス過程を用いて、ある点が2項対戦で勝つ確率をモデル化し、好みの結果に対する確率的推論を可能にする。
フレームワークは、入力ペアを勝利確率にマップする潜在的好み関数を定義し、対称性を強制する：P(x ≻ x') = 1 - P(x' ≻ x)。
3つの獲得関数が提案される：純粋探索（PE）、コペランド期待改善（CEI）、デュエル・スミスン・サンプリング（DTS）。これらはすべて、標準的なBOの原則に基づくが、デュエルフィードバックに適応されたものである。
DTSは好み関数上のスミスン・サンプリングを用いて、確率的に対戦を選択し、探索を促進しながら計算の tractability を維持する。
すべての可能な対戦の相関を同時にモデル化することで、高次元の入力空間であっても、最も情報の多い比較を選択できる。
最適化プロセスは、獲得関数に基づいて反復的に対戦を選択し、GP事後分布を更新し、コンドルセ勝者（現在の最良推定値）を特定する。

実験結果

リサーチクエスチョン

RQ12項比較の相関を捉える確率的モデルは、グリーディーやバンディットベースの手法よりも、好みの最適化において優れていると予想されるか？
RQ2PE、CEI、DTSといった異なる獲得関数は、デュエルフィードバック設定において探索と活用のバランスをどのようにとるか？
RQ3ガウス過程を用いて完全な好み関数をモデル化することで、相関を無視する手法と比較して、必要な比較回数はどの程度削減されるか？
RQ4PBOは、さまざまなベンチマーク関数や高次元の入力空間において、どの程度の性能を示すか？
RQ5IBP、Sparring、および他のデュエルバンディットアルゴリズムと比較して、PBOは収束速度および最終的な解の質において最先端の性能を達成できるか？

主な発見

デュエル・スミスン・サンプリングを用いたPBO（PBO-DTS）は、IBP や Sparring と比較して、収束速度および最終的な解の質において一貫して優れている。
PBO-DTSは、最適解に到達するための比較回数を顕著に削減し、実験では一部のケースでSparringと比較して最大50％も少ない比較回数で到達している。
コペランド期待改善（CEI）獲得関数は効果的ではあるが、計算コストが高く、過剰な活用に陥りやすく、スケーラビリティに制限がある。
純粋探索（PE）は低次元では良好に動作するが、高次元問題では空間を効果的にカバーできない。
ガウス過程を用いて対の間の相関をモデル化することが、PBOの優れた性能の鍵である。これは、相関をモデル化しないSparringの劣悪な性能が裏付けている。
200ステップの予算内では、PBO-DTSは、IBP やランダム選択、バンディットベースの手法と比較して、真の最小値により速くかつ一貫して収束する。特に複雑で多峰性のあるランドスケープにおいて顕著である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。