QUICK REVIEW

[论文解读] Preferential Bayesian Optimization

Javier González, Zhenwen Dai|arXiv (Cornell University)|Apr 12, 2017

Advanced Bandit Algorithms Research参考文献 11被引用 36

一句话总结

本文提出偏好贝叶斯优化（PBO），一种仅使用成对偏好比较而非直接函数评估来优化黑箱函数的框架。通过使用伯努利似然的高斯过程建模偏好概率，PBO采用新型采集函数（如Copeland期望改进和对弈汤普森采样），有效平衡探索与利用，与最先进方法相比，显著减少了找到最优解所需的比较次数。

ABSTRACT

Bayesian optimization (BO) has emerged during the last few years as an effective approach to optimizing black-box functions where direct queries of the objective are expensive. In this paper we consider the case where direct access to the function is not possible, but information about user preferences is. Such scenarios arise in problems where human preferences are modeled, such as A/B tests or recommender systems. We present a new framework for this scenario that we call Preferential Bayesian Optimization (PBO) which allows us to find the optimum of a latent function that can only be queried through pairwise comparisons, the so-called duels. PBO extends the applicability of standard BO ideas and generalizes previous discrete dueling approaches by modeling the probability of the winner of each duel by means of a Gaussian process model with a Bernoulli likelihood. The latent preference function is used to define a family of acquisition functions that extend usual policies used in BO. We illustrate the benefits of PBO in a variety of experiments, showing that PBO needs drastically fewer comparisons for finding the optimum. According to our experiments, the way of modeling correlations in PBO is key in obtaining this advantage.

研究动机与目标

解决仅能获得间接偏好反馈（如成对比较）而非直接函数评估时的黑箱函数优化问题。
将贝叶斯优化扩展至人类或系统偏好为主要反馈机制的场景，如A/B测试或推荐系统。
使用高斯过程建模潜在偏好函数，捕捉对弈之间的相关性，提升样本效率。
开发专为对弈反馈设计的采集函数，更有效地平衡探索与利用，优于贪婪或上下文Bandit方法。
证明建模偏好数据中的相关性可实现更快收敛和更优的优化性能。

提出的方法

PBO使用具有伯努利似然的高斯过程建模某一点在成对对弈中获胜的概率，实现对偏好结果的概率推理。
该框架定义了一个潜在偏好函数，将输入对映射到获胜概率，且强制对称性：P(x ≻ x') = 1 - P(x' ≻ x)。
提出三种采集函数：纯探索（PE）、Copeland期望改进（CEI）和对弈汤普森采样（DTS），均源自标准贝叶斯优化原理，但针对对弈反馈进行了适配。
DTS通过对偏好函数使用汤普森采样，随机选择对弈，促进探索，同时保持计算可行性。
该方法联合建模所有可能对弈之间的相关性，使即使在高维输入空间中，也能选择最具信息量的比较。
优化过程迭代地基于采集函数选择对弈，更新GP后验分布，并将Condorcet胜者识别为当前最优解的估计值。

实验结果

研究问题

RQ1能否通过捕捉成对比较之间相关性的概率模型，在偏好优化中超越贪婪或Bandit方法？
RQ2在对弈反馈设置下，不同采集函数（PE、CEI、DTS）如何在探索与利用之间取得平衡？
RQ3通过高斯过程对完整偏好函数建模，与忽略相关性的方法相比，能在多大程度上减少所需比较次数？
RQ4PBO在不同基准函数及更高维输入空间中的表现如何？
RQ5与IBP、Sparring及其他对弈Bandit算法相比，PBO能否在收敛速度和最终解质量方面达到最先进水平？

主要发现

采用对弈汤普森采样（PBO-DTS）的PBO在收敛速度和最终解质量方面始终优于所有基线方法，包括IBP和Sparring。
PBO-DTS在达到最优解所需比较次数上实现显著减少，实验显示在某些情况下较Sparring减少高达50%。
Copeland期望改进（CEI）采集函数虽有效，但计算成本高，且易过度利用，限制其可扩展性。
纯探索（PE）在低维问题中表现尚可，但在高维问题中难以有效覆盖搜索空间。
通过高斯过程对对弈间相关性进行建模，是PBO实现卓越性能的关键因素，这一点由Sparring（不建模此类相关性）表现较差所证实。
在200步预算下，PBO-DTS比IBP、随机选择和基于Bandit的方法更快且更一致地收敛至真实最小值，尤其在复杂多峰景观中表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。