QUICK REVIEW

[논문 리뷰] Sample Complexity of Incentivized Exploration.

Mark Sellke, Aleksandrs Slivkins|arXiv (Cornell University)|2020. 02. 03.

Advanced Bandit Algorithms Research인용 수 3

한 줄 요약

이 논문은 자기 이기적인 에이전트가 존재하는 다손대 밴딧에서 인센티브 기반 탐색을 연구한다. 에이전트는 알고리즘 추천에만 따를 뿐이며, 본문에서는 톰슨 샘플링이 충분한 데이터로 초기화될 경우 인센티브 호환성이 확보됨을 보여주며, 이에 필요한 표본 복잡도에 대해 다항수 상한 및 하한을 제시한다. 이는 K(손의 수)와 베이지안 사전분포에 대한 핵심적 의존성을 해결한다.

ABSTRACT

We consider incentivized exploration: a version of multi-armed bandits where the choice of actions is controlled by self-interested agents, and the algorithm can only issue recommendations. The algorithm controls the flow of information, and the information asymmetry can incentivize the agents to explore. Prior work matches the optimal regret rates for bandits up to constant multiplicative factors determined by the Bayesian prior. However, the dependence on the prior in prior work could be arbitrarily large, and the dependence on the number of arms K could be exponential. The optimal dependence on the prior and K is very unclear. We make progress on these issues. Our first result is that Thompson sampling is incentive-compatible if initialized with enough data points. Thus, we reduce the problem of designing incentive-compatible algorithms to that of sample complexity: (i) How many data points are needed to incentivize Thompson sampling? (ii) How many rounds does it take to collect these samples? We address both questions, providing upper bounds on sample complexity that are typically polynomial in K and lower bounds that are polynomially matching.

연구 동기 및 목표

기존 연구에서 다손대 밴딧의 인센티브 기반 탐색에 대해 손의 수 K와 베이지안 사전분포에 대한 명확한 의존성이 부족한 점을 해결하기 위해.
톰슨 샘플링이 인센티브 호환성이 되도록 하기 위해 필요한 최소 표본 수를 규명하기 위해.
이러한 초기 데이터 포인트를 수집하기 위해 필요한 라운드 수를 분석하기 위해.
인센티브 기반 탐색에서 표본 복잡도에 대해 날카롭고 다항수 상한 및 하한을 제공하기 위해.

제안 방법

톰슨 샘플링이 적절히 초기화될 경우 인센티브 호환성이 있음을 보여줌으로써, 인센티브 호환 알고리즘 설계 문제를 표본 복잡도 문제로 환원한다.
초기 데이터 크기의 함수로서 톰슨 샘플링이 인센티브 호환성을 유지하는 조건을 분석한다.
인센티브 호환성을 보장하기 위해 필요한 표본 수의 상한을 유도하며, K에 대해 다항수 의존성을 보여준다.
표본 복잡도에 대해 일치하는 하한을 확립하여, 경계가 상수 요소를 제외하고 날카롭다는 것을 증명한다.
정보 이론적 및 게임 이론적 분석을 사용하여, 정보 비대칭을 통해 탐색을 유도하기 위해 필요한 최소 데이터를 특성화한다.

실험 결과

연구 질문

RQ1다손대 밴딧에서 톰슨 샘플링이 인센티브 호환성이 되도록 하기 위해 필요한 최소 초기 데이터 포인트 수는 얼마인가?
RQ2표본 복잡도는 손의 수 K에 따라 어떻게 변화하는가?
RQ3표본 복잡도는 베이지안 사전분포에 따라 어떻게 의존하며, 이러한 의존성은 유계로 간주될 수 있는가?
RQ4필요한 초기 데이터 포인트를 수집하기 위해 필요한 최소 라운드 수는 얼마인가?
RQ5표본 복잡도에 대한 상한 및 하한은 다항수이며 날카로운가?

주요 결과

톰슨 샘플링은 충분히 큰 수의 데이터 포인트로 초기화될 경우 인센티브 호환성이 확보된다.
필요한 초기 데이터 포인트 수는 손의 수 K에 대해 다항수로 증가한다.
표본 복잡도 상한은 K에 대해 다항수이며, 하한은 상수 요소를 제외하고 이와 같은 스케일링을 따르며 일치한다.
베이지안 사전분포에 대한 의존성은 유계이며 무한히 증가하지 않으며, 이는 이전 연구의 핵심적 한계를 해결한다.
필요한 데이터를 수집하기 위해 필요한 라운드 수 역시 K에 대해 다항수로 유계이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.