Skip to main content
QUICK REVIEW

[논문 리뷰] Multiple-Play Bandits in the Position-Based Model

Paul Lagrée, Claire Vernade|arXiv (Cornell University)|2016. 06. 08.
Advanced Bandit Algorithms Research참고 문헌 23인용 수 27
한 줄 요약

이 논문은 사용자 클릭이 관측되지 않는 위치 기반 검토 확률에 의해 차단되는 위치 기반 모델(PBM) 하에서 다중 플레이 밴디트에 대한 새로운 손실 하한과 계산적으로 효율적인 알고리즘을 제안한다. 클릭 피드백을 위치 검토와 항목 관련성의 곱으로 모델링함으로써, 저자들은 암묵적 피드백이 있는 추천 시스템에서 이론적이고 실증적으로 뛰어난 성능을 달성하는 낙관적 알고리즘을 설계한다.

ABSTRACT

Sequentially learning to place items in multi-position displays or lists is a task that can be cast into the multiple-play semi-bandit setting. However, a major concern in this context is when the system cannot decide whether the user feedback for each item is actually exploitable. Indeed, much of the content may have been simply ignored by the user. The present work proposes to exploit available information regarding the display position bias under the so-called Position-based click model (PBM). We first discuss how this model differs from the Cascade model and its variants considered in several recent works on multiple-play bandits. We then provide a novel regret lower bound for this model as well as computationally efficient algorithms that display good empirical and theoretical performance.

연구 동기 및 목표

  • 사용자 피드백이 관측되지 않는 위치 기반 검토 확률에 의해 차단되는 다중 위치 추천 시스템에서의 학습 과제를 해결하기 위해.
  • 오직 차단된 클릭 피드백만 관측되는 위치 기반 모델(PBM) 하에서 다중 플레이 밴디트 문제를 체계화하기 위해.
  • 이전의 모델들인 캐스케이드 모델과 종속 클릭 모델과 구별되는 PBM 설정에 대한 새로운 손실 하한을 유도하기 위해.
  • PBM 설정 하에서 이론적 성능과 실증적 성능을 모두 확보하는 계산적으로 효율적인 낙관적 알고리즘을 설계하기 위해.

제안 방법

  • 각 위치 $l$ 에 대해 관측되지 않는 검토 확률 $\kappa_l$ 를 가진 $L$-armed 선택을 포함하는 스토하스틱 다중 플레이 밴디트로 PBM을 모델링한다.
  • 차단된 피드백을 관측한다: $Z_l(t) = Y_l(t) \cdot X_l(t)$, 여기서 $Y_l(t) \sim \mathcal{B}(\kappa_l)$ 는 관측되지 않으며 $X_l(t) \sim \mathcal{B}(\theta_{A_l(t)})$ 는 항목의 관련성이다.
  • 위치별 검토 영향을 고려해 조정된 KL-UCB 스타일의 신뢰 구간을 사용하는 탐색과 이용의 균형을 이끄는 두 가지 낙관적 알고리즘을 제안한다.
  • 차단된 피드백 하에서 비최적의 암호와 최적의 암호를 구별하는 통계적 어려움을 분석하여 손실 하한을 도출한다.
  • 부분합에 대한 농도 부등식(예: 허프딩 유형의 부등식)을 사용하여 추정 오차를 통제한다.
  • 정지 시간 논증과 마틴게일 농도를 적용하여 비최적 암호가 선택되는 횟수를 제한함으로써 손실 하한에 도달한다.

실험 결과

연구 질문

  • RQ1PBM 설정은 피드백 구조와 학습 과제 측면에서 캐스케이드 모델과 종속 클릭 모델과 어떻게 다를까?
  • RQ2PBM 설정 하에서 다중 플레이 밴디트에 대한 기본 통계적 한계(즉, 손실 하한)는 무엇인가?
  • RQ3PBM 설정에서 渐近적으로 최적의 손실을 달성하는 계산적으로 효율적인 알고리즘을 설계할 수 있는가?
  • RQ4위치별 검토 확률 $\kappa_l$ 는 학습 과정과 달성 가능한 손실에 어떤 영향을 미치는가?

주요 결과

  • 논문은 위치 기반 모델(PBM) 하에서 다중 플레이 밴디트 문제에 대한 새로운 손실 하한을 확립하여, 차단된 피드백으로 인한 학습의 본질적 어려움을 체계화한다.
  • 제안된 낙관적 알고리즘은 유도된 하한과 로그 인자까지 일치하는 이론적 손실 하한을 달성하여 渐近적 최적성을 보여준다.
  • 합성 및 실세계 데이터에 대한 실증 평가에서 제안된 알고리즘이 누적 손실과 수렴 속도 측면에서 기존 벤치마크를 능가하는 것으로 나타났다.
  • 분석 결과, 검토 확률 $\kappa_l$ 는 학습 과정에 상당한 영향을 미치며, 높은 위치에서의 낮은 $\kappa_l$ 는 항목 관련성 추정의 어려움을 증가시킨다.
  • 이론적 분석은 비최적 암호가 선택되는 횟수가 $O(\log T)$ 로 제한됨을 확인하며, 이때 상수는 기대 클릭 확률의 격차와 위치 가중치에 따라 달라진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.