QUICK REVIEW

[논문 리뷰] Preferential Bayesian Optimization

Javier González, Zhenwen Dai|arXiv (Cornell University)|2017. 04. 12.

Advanced Bandit Algorithms Research참고 문헌 11인용 수 36

한 줄 요약

이 논문은 직접 함수 평가 대신 쌍별 선호 비교만을 사용하여 블랙박스 함수를 최적화하는 Preferential Bayesian Optimization (PBO) 프레임워크를 소개한다. 선호 확률을 베르누이 우도를 갖는 가우시안 프로세스로 모델링함으로써 PBO는 Copeland 기대 향상 및 듀얼링 톰슨 샘플링과 같은 새로운 확보 함수를 활용하여 탐색과 이용의 균형을 효과적으로 유지하며, 기존 최첨단 방법 대비 최적화를 위한 비교 횟수를 크게 줄인다.

ABSTRACT

Bayesian optimization (BO) has emerged during the last few years as an effective approach to optimizing black-box functions where direct queries of the objective are expensive. In this paper we consider the case where direct access to the function is not possible, but information about user preferences is. Such scenarios arise in problems where human preferences are modeled, such as A/B tests or recommender systems. We present a new framework for this scenario that we call Preferential Bayesian Optimization (PBO) which allows us to find the optimum of a latent function that can only be queried through pairwise comparisons, the so-called duels. PBO extends the applicability of standard BO ideas and generalizes previous discrete dueling approaches by modeling the probability of the winner of each duel by means of a Gaussian process model with a Bernoulli likelihood. The latent preference function is used to define a family of acquisition functions that extend usual policies used in BO. We illustrate the benefits of PBO in a variety of experiments, showing that PBO needs drastically fewer comparisons for finding the optimum. According to our experiments, the way of modeling correlations in PBO is key in obtaining this advantage.

연구 동기 및 목표

직접적인 함수 평가가 아닌 간접적이고 선호 기반 피드백(예: 쌍별 비교)만 제공되는 상황에서 블랙박스 함수의 최적화를 해결하기 위해.
사람이나 시스템의 선호가 주된 피드백 메커니즘인 A/B 테스트나 추천 시스템 등의 상황으로 베이지안 최적화를 확장하기 위해.
모든 듀얼 간 상관관계를 포착하는 가우시안 프로세스를 사용해 잠재 선호 함수를 모델링함으로써 표본 효율성을 향상시키기 위해.
듀얼 피드백에 특화된 확보 함수를 개발하여, 게으른 또는 밴딧 기반 접근 방식보다 탐색과 이용을 더 효과적으로 균형 잡기 위해.
선호 데이터의 상관관계를 모델링할 경우 수렴 속도가 빨라지고 최적화 성능이 향상됨을 입증하기 위해.

제안 방법

PBO는 쌍별 듀얼에서 한 점이 이길 확률을 베르누이 우도를 갖는 가우시안 프로세스로 모델링하여 선호 결과에 대한 확률적 추론을 가능하게 한다.
이 프레임워크는 입력 쌍을 승리 확률로 매핑하는 잠재 선호 함수를 정의하며, 대칭성을 강제한다: P(x ≻ x') = 1 - P(x' ≻ x).
세 가지 확보 함수를 제안한다: 순수 탐색(PE), Copeland 기대 향상(CEI), 듀얼링 톰슨 샘플링(DTS). 이들은 모두 표준 BO 원칙에서 유도되었지만 듀얼 피드백에 맞게 적응된 것이다.
DTS는 선호 함수에 대해 톰슨 샘플링을 적용하여 확률적으로 듀얼을 선택함으로써 탐색을 촉진하면서도 계산의 타당성을 유지한다.
모든 가능한 듀얼 간 상관관계를 동시에 모델링함으로써, 고차원 입력 공간에서도 가장 정보가 많은 비교를 유능하게 선택할 수 있다.
최적화 과정은 확보 함수에 기반해 반복적으로 듀얼을 선택하고, GP 사후분포를 갱신하며, 현재 최적의 추정치로 컨도르세 승자(Condorcet winner)를 식별한다.

실험 결과

연구 질문

RQ1모든 쌍별 비교 간 상관관계를 포착하는 확률적 모델이 게으른 또는 밴딧 기반 방법보다 선호 최적화에서 뛰어난 성능을 내는가?
RQ2다양한 확보 함수인 PE, CEI, DTS는 듀얼 피드백 환경에서 탐색과 이용을 어떻게 균형 잡는가?
RQ3가우시안 프로세스를 사용해 전체 선호 함수를 모델링할 경우, 상관관계를 忽시하는 방법 대비 필요한 비교 횟수를 얼마나 줄일 수 있는가?
RQ4PBO는 다양한 벤치마크 함수와 고차원 입력 공간에서 어떻게 성능을 발휘하는가?
RQ5IBP, Sparring 및 기타 듀얼링 밴딧 알고리즘 대비 PBO는 수렴 속도와 최종 해의 품질 측면에서 최첨단 성능을 달성할 수 있는가?

주요 결과

듀얼링 톰슨 샘플링을 사용한 PBO(DTS)는 IBP 및 Sparring를 포함한 모든 베이스라인보다 수렴 속도와 최종 해 품질 측면에서 뛰어난 성능을 보였다.
PBO-DTS는 최적의 해에 도달하기 위해 필요한 비교 횟수를 크게 줄였으며, 실험 결과 일부 케이스에서 Sparring 대비 최대 50%까지 비교 횟수를 감소시켰다.
Copeland 기대 향상(CEI) 확보 함수는 효과적이지만 높은 계산 비용을 유발하고 과도한 이용 경향을 보여, 확장성에 제약이 있다.
순수 탐색(PE)은 저차원 문제에서는 합리적인 성능을 보이나 고차원 문제에서는 공간을 효과적으로 커버하지 못한다.
가우시안 프로세스를 통해 듀얼 간 상관관계를 모델링하는 것이 PBO의 뛰어난 성능을 가능하게 한 핵심 요소이며, 이는 상관관계를 무시하는 Sparring의 열악한 성능으로도 입증된다.
200단계 예산 내에서 PBO-DTS는 복잡한 다모달 랜드스케이프에서 IBP, 무작위 선택 및 밴딧 기반 방법보다 진짜 최소값에 더 빠르고 일관성 있게 수렴한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.