[논문 리뷰] Gaussian Process Optimization with Adaptive Sketching: Scalable and No Regret
예산형 커널 밴딧 알고리즘 BKB를 소개합니다. 이는 ridge leverage score 샘플링을 통해 적응형 유도 포인트로 GP-UCB를 근사하고, 런타임과 메모리 사용을 크게 줄이면서 거의 최적에 가까운 후회(regret)를 달성합니다.
Gaussian processes (GP) are a well studied Bayesian approach for the optimization of black-box functions. Despite their effectiveness in simple problems, GP-based algorithms hardly scale to high-dimensional functions, as their per-iteration time and space cost is at least quadratic in the number of dimensions $d$ and iterations $t$. Given a set of $A$ alternatives to choose from, the overall runtime $O(t^3A)$ is prohibitive. In this paper we introduce BKB (budgeted kernelized bandit), a new approximate GP algorithm for optimization under bandit feedback that achieves near-optimal regret (and hence near-optimal convergence rate) with near-constant per-iteration complexity and remarkably no assumption on the input space or covariance of the GP. We combine a kernelized linear bandit algorithm (GP-UCB) with randomized matrix sketching based on leverage score sampling, and we prove that randomly sampling inducing points based on their posterior variance gives an accurate low-rank approximation of the GP, preserving variance estimates and confidence intervals. As a consequence, BKB does not suffer from variance starvation, an important problem faced by many previous sparse GP approximations. Moreover, we show that our procedure selects at most $\ ilde{O}(d_{eff})$ points, where $d_{eff}$ is the effective dimension of the explored space, which is typically much smaller than both $d$ and $t$. This greatly reduces the dimensionality of the problem, thus leading to a $O(TAd_{eff}^2)$ runtime and $O(A d_{eff})$ space complexity.
연구 동기 및 목표
- GP 기반 방법이 계산적으로 무겁다는 점을 고려하여 확장 가능한 블랙박스 최적화를 모티브로 삼습니다.
- 불확실성 정량 및 후회 보장을 보존하는 희소 GP/선형 밴딧 근사를 개발합니다.
- 문제의 유효 차원에 따라 확장되는 적응형 유도 포인트 선택 메커니즘을 제공합니다.
- 개별 반복의 복잡도에서 상당한 감소를 이루면서 거의 최적의 후회를 보장합니다.
제안 방법
- 사이즈 m인 유도 포인트 부분 집합 S_t를 사용한 Nyström 임베딩으로 GP-UCB를 결합합니다.
- 임베딩을 사용하여 근사 사후 평균과 분산을 정의합니다 (μ_t, σ_t^2, u_t에 대한 방정식).
- 사후 분산에 연계된 릿지 레버리지 점수(RLS) 샘플링을 통해 온라인으로 유도 포인트를 선택합니다. σ_t^2에 비례하는 확률과 조정 가능한 매개변수 \overline{q}를 가진 점들을 포함합니다.
- 분산 추정치 σ_t^2가 분산 고갈을 피하는 DTC 스타일 분산이며 RLS와 관련이 있음을 보입니다.
- 이론적 보장을 제공합니다: 정확한 σ_t^2에 대한 상대적 경계 및 유효 차원 d_eff에 따른 |S_t|의 상한.
- 상수 차수까지 GP-UCB와 일치하는 후회 경계를 도출하고 매-스텝 계산 복잡도는 O(T A d_eff^2), 공간 복잡도는 O(A d_eff)로 개선합니다.
실험 결과
연구 질문
- RQ1GP 기반 밴딧 최적화가 후회 보장을 해치지 않으면서 높은 차원과 긴 시간 horizon으로 확장될 수 있는가?
- RQ2유도 포인트 기반 희소 근사가 불확실성 추정치와 신뢰 구간을 정확하게 보존하여 분산 고갈을 피할 수 있는가?
- RQ3탐색 공간의 유효 차원을 반영하도록 유도 포인트 집합을 어떻게 적응적으로 선택해야 하는가?
- RQ4GP-UCB를 적응형 스케치 기반 접근으로 대체할 때 계산 및 메모리 복잡도 개선은 어느 정도인가?
- RQ5제안된 방법이 밴딧 피드백 하에서 정확한 GP-UCB에 근접한 후회 경계를 달성하는가?
주요 결과
- BKB는 표준 가정 하에서 GP-UCB에 비해 거의 최적의 후회를 달성합니다.
- 적응형 유도 포인트를 이용한 Nyström 임베딩은 매-스텝 런타임을 O(TAd_eff^2)로, 공간을 O(Ad_eff)로 제공합니다.
- 후도 분산에 기반한 RLS 샘플링으로 선택된 유도 포인트는 정확한 GP 포스트리어를 근접하게 근사합니다(높은 확률로).
- 방법은 분산 고갈을 피하기 위해 진짜 후처 분산의 상수배 이내로 분산 추정치를 유지합니다.
- 유도 포인트 집합 |S_t|의 크기는 유효 차원 d_eff에 따라 달라지며 문제 난이도에 따라 적응적 복잡성을 제공합니다.
- 이론적 결과는 σ_t^2(d) / α ≤ σ̃_t^2(d) ≤ α σ_t^2(d)로, α는 선택된 매개변수에 따라 달라지며, 후회 R_T는 d_eff와 T에 따라 한정됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.