QUICK REVIEW

[논문 리뷰] Scalable Generalized Linear Bandits: Online Computation and Hashing

Kwang-Sung Jun, Aniruddha Bhargava|arXiv (Cornell University)|2017. 06. 01.

Advanced Bandit Algorithms Research참고 문헌 25인용 수 31

한 줄 요약

이 논문은 일반선형 밴디트(Geeneralized Linear Bandits, GLBs)를 위한 확장 가능한 알고리즘을 제안하기 위해 일반선형 온라인-신뢰집합 변환(GLOC) 프레임워크를 도입한다. 이는 온라인 학습을 통해 라운드당 일정한 공간 및 시간 복잡도를 달성함으로써 시간 경과에 따라 증가하는 기존 방법의 문제를 해결한다. 또한, 해시 기반 알고리즘을 통해 암수에 대한 비선형 시간 복잡도를 달성하면서 $O(d^{5/4})$의 리그레트 한계를 확보함으로써 기존의 $O(d^{3/2})$ 한계를 향상시키며, 최적화된 해시를 통한 근사 내적 계산을 빠르게 수행할 수 있도록 한다.

ABSTRACT

Generalized Linear Bandits (GLBs), a natural extension of the stochastic linear bandits, has been popular and successful in recent years. However, existing GLBs scale poorly with the number of rounds and the number of arms, limiting their utility in practice. This paper proposes new, scalable solutions to the GLB problem in two respects. First, unlike existing GLBs, whose per-time-step space and time complexity grow at least linearly with time $t$, we propose a new algorithm that performs online computations to enjoy a constant space and time complexity. At its heart is a novel Generalized Linear extension of the Online-to-confidence-set Conversion (GLOC method) that takes \emph{any} online learning algorithm and turns it into a GLB algorithm. As a special case, we apply GLOC to the online Newton step algorithm, which results in a low-regret GLB algorithm with much lower time and memory complexity than prior work. Second, for the case where the number $N$ of arms is very large, we propose new algorithms in which each next arm is selected via an inner product search. Such methods can be implemented via hashing algorithms (i.e., "hash-amenable") and result in a time complexity sublinear in $N$. While a Thompson sampling extension of GLOC is hash-amenable, its regret bound for $d$-dimensional arm sets scales with $d^{3/2}$, whereas GLOC's regret bound scales with $d$. Towards closing this gap, we propose a new hash-amenable algorithm whose regret bound scales with $d^{5/4}$. Finally, we propose a fast approximate hash-key computation (inner product) with a better accuracy than the state-of-the-art, which can be of independent interest. We conclude the paper with preliminary experimental results confirming the merits of our methods.

연구 동기 및 목표

시간 경과와 암수의 수에 따라 확장성에 한계를 가진 일반선형 밴디트(GLBs)의 문제를 해결하기 위해.
기존 GLB 알고리즘의 선형 공간 및 시간 복잡도가 라운드 수 $t$에 따라 증가하는 문제를 해결하기 위해.
해시 기법을 활용해 암수 $N$에 대해 비선형 시간 복잡도를 달성하는 방법을 개발하기 위해.
해시 호환성 유지 조건 하에서 해시 기반 GLB 알고리즘의 리그레트 한계를 $O(d^{3/2})$에서 $O(d^{5/4})$로 감소시키기 위해.
해시 기반 GLB 알고리즘에 활용 가능한 더 빠르고 정확한 근사 내적 계산 방법을 설계하기 위해.

제안 방법

모든 온라인 학습 알고리즘을 저리그레트 GLB 알고리즘으로 변환할 수 있는 일반선형 온라인-신뢰집합 변환(GLOC) 프레임워크를 제안한다.
GLOC를 온라인 뉴턴 스텝 알고리즘에 적용하여, $t$에 관계없이 라운드당 일정한 공간 및 시간 복잡도를 달성한다.
GLOC의 톰슨 샘플링 확장 기반 해시 호환 GLB 알고리즘을 설계하여, 국소성에 민감한 해시를 통해 $N$에 대해 비선형 시간 복잡도를 달성한다.
내적 추정을 위한 최적화된 투영 벡터를 사용해 최신 기술 대비 향상된 정확도를 보이는 새로운 해시 키 계산 방법을 제안한다.
다중 프로브 해시 기법을 활용해 고차원 공간에서 전체 나열 없이도 후보 암수를 효율적으로 탐색한다.
정규 분포를 가정한 투영 벡터를 활용해 고차원에서 L1 기반 해시가 L2 대비 더 낮은 분산을 보이는 이론적 근거를 제시한다.

실험 결과

연구 질문

RQ1시간 경과 $t$에 관계없이 라운드당 일정한 공간 및 시간 복잡도를 가지는 GLB 알고리즘을 설계할 수 있는가?
RQ2해시를 활용하면서도 저리그레트를 유지하면서 암수 $N$에 대해 비선형 시간 복잡도를 달성할 수 있는가?
RQ3해시 호환 GLB 알고리즘의 리그레트 한계를 $O(d^{3/2})$에서 $O(d^{5/4})$로 감소시킬 수 있는가?
RQ4해시 기반 GLB 알고리즘에 활용 가능한 더 빠르고 정확한 근사 내적 계산 방법을 설계할 수 있는가?
RQ5고차원 GLB 환경에서 해시 체계 선택(L1 대비 L2)이 분산과 성능에 미치는 영향은 어떠한가?

주요 결과

제안된 GLOC 프레임워크는 시간 경과에 따라 증가하는 기존 GLB 방법의 문제를 해결하여, 라운드당 일정한 공간 및 시간 복잡도를 달성한다.
온라인 뉴턴 스텝 알고리즘을 기반으로 한 GLOC 기반 알고리즘은 $O(d)$의 리그레트 한계를 달성하여 이전의 $O(d^{3/2})$ 리그레트를 가진 방법보다 향상된다.
새로운 해시 호환 알고리즘은 $O(d^{5/4})$의 리그레트 한계를 확보하여, 이전의 $O(d^{3/2})$ 한계와의 격차를 좁혔다.
제안된 근사 내적 계산 방법은 특히 고차원 환경에서 최신 기술 대비 더 높은 정확도를 보였다.
실증 결과는 제안된 방법의 실용적 이점을 확인하였으며, 대규모 밴디트 환경에서 더 빠른 추론과 낮은 리그레트를 달성함을 보였다.
이론적 분석을 통해 고차원 정규 분포 설정에서 L1 기반 해시가 L2 대비 더 낮은 분산을 보임을 입증하였으며, 이는 제안된 프레임워크에서의 활용에 대한 이론적 근거를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.