QUICK REVIEW

[논문 리뷰] Lower Bounds on Regret for Noisy Gaussian Process Bandit Optimization

Jonathan Scarlett, Ilijia Bogunovic|arXiv (Cornell University)|2017. 05. 31.

Advanced Bandit Algorithms Research인용 수 30

한 줄 요약

이 논문은 비베이지안 설정에서 노이즈 있는 가우시안 프로세스 밴딧 최적화에 대해, 제곱 지수 및 매테른 핵함수에 대해 알고리즘에 의존하지 않는 최초의 하한을 확립한다. 제곱 지수 핵함수의 경우, 단순 손실 ε을 달성하기 위해 T = Ω(1/ε² (log 1/ε)^{d/2}) 라운드가 필요하며, 기존 상한과 거의 일치한다. 매테른 핵함수의 경우 유사한 하한을 제공하며, 상한과의 격차는 더 크다.

ABSTRACT

In this paper, we consider the problem of sequentially optimizing a black-box function $f$ based on noisy samples and bandit feedback. We assume that $f$ is smooth in the sense of having a bounded norm in some reproducing kernel Hilbert space (RKHS), yielding a commonly-considered non-Bayesian form of Gaussian process bandit optimization. We provide algorithm-independent lower bounds on the simple regret, measuring the suboptimality of a single point reported after $T$ rounds, and on the cumulative regret, measuring the sum of regrets over the $T$ chosen points. For the isotropic squared-exponential kernel in $d$ dimensions, we find that an average simple regret of $ε$ requires $T = Ω\big(\frac{1}{ε^2} (\log\frac{1}ε)^{d/2}\big)$, and the average cumulative regret is at least $Ω\big( \sqrt{T(\log T)^{d/2}} \big)$, thus matching existing upper bounds up to the replacement of $d/2$ by $2d+O(1)$ in both cases. For the Matérn-$ν$ kernel, we give analogous bounds of the form $Ω\big( (\frac{1}ε)^{2+d/ν}\big)$ and $Ω\big( T^{\frac{ν+ d}{2ν+ d}} \big)$, and discuss the resulting gaps to the existing upper bounds.

연구 동기 및 목표

알고리즘에 의존하지 않는 하한을 도출하여, 노이즈 있는 가우시안 프로세스 밴딧 최적화에서 기존 상한과 이론적 한계 사이의 격차를 메우기.
유계 RKHS 노름과 노이즈 있는 관측을 가진 비베이지안 설정에서 단순 손실과 누적 손실의 기본 한계를 분석하기.
제곱 지수 및 매테른 핵함수에 대해 기존 상한이 날카로운지 또는 향상시킬 수 있는지 조사하기.
노이즈가 GP 밴딧 최적화에서 손실 스케일링에 미치는 영향, 특히 고차원 설정에서의 영향을 탐색하기.
베이지안 설정에서의 열린 문제를 규명하기. 현재의 하한은 피어싱 히어터 함수와의 사전 불일치로 인해 실제 성능을 반영하지 못할 수 있다.

제안 방법

유계 RKHS 노름을 가진 함수 클래스에 대해 최소화-최대화 원리에 기반해, 노이즈 있는 밴딧 피드백 하에서 구분하기 어려운 '바늘을 풀에 넣은 함수'의 클래스를 구성한다.
판스커의 부등식과 핀스커의 부등식을 적용하여, 서로 다른 함수 하에서의 우도 간 총변동 거리의 상한을 구하고, 이를 통해 기대 손실의 하한을 유도한다.
커버링 추론을 사용하여 RKHS 클래스 내에서 구별 가능한 함수의 수를 상한화함으로써, 최적의 점을 구별하기 위해 필요한 샘플 수의 하한을 도출한다.
최종 점의 기대 비최적성과 시간에 따른 비최적성의 합을 분석하여, 단순 손실과 누적 손실에 대한 하한을 도출한다.
역 마르코프 부등식을 적용하여 고정 확률 하의 손실 하한을 유도함으로써, 고확률 손실 하한을 분석에 적응시킨다. 이는 일정 확률의 손실이 기대 손실 하한보다 나아질 수 없다는 것을 보여준다.
제곱 지수(SE) 및 매테른 핵함수의 두 가지 널리 사용되는 핵함수를 분석하여, 각각의 RKHS 노름과 메트릭 엔트로피 성질을 고려한다.

실험 결과

연구 질문

RQ1제곱 지수 핵함수를 사용한 노이즈 있는 가우시안 프로세스 밴딧 최적화에서 단순 손실의 기본 하한은 무엇인가?
RQ2비베이지안 설정에서 누적 손실은 어떻게 스케일링되며, 기존 상한과 어떻게 비교되는가?
RQ3매테른 핵함수에 대해 기존 상한과 새로운 하한 사이의 격차는 무엇인가?
RQ4노이즈는 GP 밴딧 최적화에서 손실 스케일링에 어느 정도 영향을 미치는가?
RQ5SE 핵함수에 대한 기존 상한은 향상시킬 수 있는가, 아니면 거의 날카로운가?

주요 결과

d차원에서 제곱 지수 핵함수의 경우, 단순 손실 ε을 달성하기 위해 필요한 최소한의 라운드 수 T는 Ω(1/ε² (log 1/ε)^{d/2})이며, 기존 상한과 거의 일치한다.
누적 손실은 Ω(√(T (log T)^{d/2}))로 하한이 있으며, 기존 최고의 상한과 지수 항에서 2d+O(1)의 요소로만 다를 뿐 거의 일치한다.
매테른-ν 핵함수의 경우, 단순 손실 ε을 달성하기 위한 T에 대한 하한은 Ω((1/ε)^{2 + d/ν})이며, 기존 상한과의 격차가 더 크다.
매테른 핵함수의 누적 손실 하한은 Ω(T^{(ν + d)/(2ν + d)})이며, 이는 상한 스케일링보다 엄격히 작으며, 향상 여지가 있음을 시사한다.
분석을 통해 σ/B = O(√T)의 가정이 ε/B가 충분히 작다는 것을 보장함으로써, 하한의 점근적 영역이 타당하다는 것을 확인한다.
역 마르코프 부등식을 적용하여 고확률 손실 하한을 유도함으로써, 일정 확률의 손실이 기대 손실 하한보다 나아질 수 없다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.