QUICK REVIEW

[논문 리뷰] Stochastic Bandit Models for Delayed Conversions

Claire Vernade, Olivier Cappé|arXiv (Cornell University)|2017. 06. 28.

Advanced Bandit Algorithms Research참고 문헌 7인용 수 27

한 줄 요약

이 논문은 온라인 광고에서 보상이 알려지지 않은 확률적 지연과 함께 도착하는 지연된 전환을 다루기 위한 스토하스틱 다항보상 밴딧 프레임워크를 제안한다. 보상의 지연이 발생할 수 있는 상황에서, 이는 캐시드 피드백을 처리하기 위해 포isson화 기법을 사용하는 낙관적 색인 정책을 적용한 두 가지 효율적인 알고리즘—d-UCB와 d-KLUCB—를 도입하여, 낮은 전환 비율에서도 거의 최적의 리그레트 성능을 달성한다.

ABSTRACT

Online advertising and product recommendation are important domains of applications for multi-armed bandit methods. In these fields, the reward that is immediately available is most often only a proxy for the actual outcome of interest, which we refer to as a conversion. For instance, in web advertising, clicks can be observed within a few seconds after an ad display but the corresponding sale --if any-- will take hours, if not days to happen. This paper proposes and investigates a new stochas-tic multi-armed bandit model in the framework proposed by Chapelle (2014) --based on empirical studies in the field of web advertising-- in which each action may trigger a future reward that will then happen with a stochas-tic delay. We assume that the probability of conversion associated with each action is unknown while the distribution of the conversion delay is known, distinguishing between the (idealized) case where the conversion events may be observed whatever their delay and the more realistic setting in which late conversions are censored. We provide performance lower bounds as well as two simple but efficient algorithms based on the UCB and KLUCB frameworks. The latter algorithm, which is preferable when conversion rates are low, is based on a Poissonization argument, of independent interest in other settings where aggregation of Bernoulli observations with different success probabilities is required.

연구 동기 및 목표

전환 피드백이 지연되고 가능하게 캐시드된 경우 온라인 광고에서 최적의 행동을 학습하는 데 도전하는 문제를 해결한다.
지연 분포는 알려져 있으나 각 암의 전환 확률은 알려져 있지 않도록 모델링하여 실제 웹 광고 데이터의 특성을 반영한다.
긴 지연으로 인해 관측되지 않는(캐시드된) 전환을 고려한 효율적인, 언제나 적용 가능한 밴딧 알고리즘을 개발한다.
이론적 성능 한계를 제공하고, 제안된 알고리즘이 지연된 피드백을 기각하는 단순 히وري스틱보다 우수한 성능을 실증적으로 검증한다.

제안 방법

각 암 풀 시도가 베르누이 전환과 독립적인 확률적 지연을 유발하는 스토하스틱 밴딧 모델을 수식화한다. 지연 분포는 알려져 있다.
두 가지 설정을 도입한다: 캐시드(모든 전환이 최종적으로 관측됨)와 캐시드(고정된 윈도우 m 이후 피드백이 유실됨).
UCB와 KL-발산 기반의 낙관적 색인 정책을 사용하여 탐색과 이용의 균형을 이루는 d-UCB와 d-KLUCB 알고리즘을 설계한다.
KLUCB 변형에서 베르누이 관측치를 다양한 성공 확률로 효율적으로 집계하기 위해 포isson화 추론을 적용한다.
기하 분포 지연 가정 하에서 과거 풀의 가중치 계수를 재귀적으로 업데이트하는 방법(예: $ O_k(t+1) riangleq \lambda O_k(t) + \mathds{1}\{A_t = k\} $)을 사용하여 계산 효율성을 유지한다.
지연이 기하 분포를 따를 경우, 슬라이딩 윈도우와 버퍼를 사용한 메모리 효율적인 변형을 구현한다.

실험 결과

연구 질문

RQ1지속적으로 지연된 전환 피드백이 관측되지 않는 캐시드 피드백은 지연된 전환 설정에서 밴딧 알고리즘의 리그레트에 어떤 영향을 미치는가?
RQ2UCB와 KLUCB와 같은 낙관적 색인 정책은 알려진 분포를 가진 무한대 지연을 다룰 수 있도록 어떻게 적응시킬 수 있는가?
RQ3캐시드 및 캐시드가 아닌 지연된 피드백 상황에서 밴딧 알고리즘의 기본 성능 한계(하한)는 무엇인가?
RQ4포isson화를 활용하는 KLUCB 기반 알고리즘은 낮은 전환 비율 하에서 UCB에 비해 리그레트와 수렴 속도 측면에서 어떻게 비교되는가?
RQ5단기 학습 환경에서, 지연을 고려한 알고리즘은 지연된 피드백을 기각하는 단순 히وري스틱에 비해 얼마나 더 뛰어난 성능을 보이는가?

주요 결과

논문은 캐시드 및 캐시드가 아닌 지연된 피드백 모델에 대해 문제 의존적 리그레트 하한을 확립하여 이론적 기준을 제공한다.
d-KLUCB 알고리즘은 포isson화와 KL 발산을 활용함으로써, 특히 낮은 전환 비율(예: 0.03)에서 거의 최적의 渐近적 리그레트 성능을 달성한다.
T = 10,000, m = 1000, \mu = 500 조건 하에서의 시뮬레이션에서, d-KLUCB는 낮은 전환 비율 영역(\theta_L = (0.1, 0.05, 0.03))에서 d-UCB와 피드백 기각 히وري스틱보다 뚜렷이 뛰어난 성능을 보였다.
d-UCB와 d-KLUCB 알고리즘은 피드백 기각 정책에 비해 초기 단계에서 선형 리그레트 단계를 겪지 않아 성능이 극적으로 향상됨을 보였다.
기하 분포 지연을 가정할 경우, 재귀적 업데이트를 통해 알고리즘을 효율적으로 구현할 수 있어, 메모리와 계산 복잡도가 각각 O(m)과 O(1)로 감소한다.
실증 결과는 포isson화 기반 KLUCB 변형이 낮은 전환 확률 조건에서도 최적의 리그레트 증가율에 거의 영향을 주지 않음을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.