[論文レビュー] Sample Complexity of Incentivized Exploration.
この論文は、自己利益志向のエージェントがアルゴリズムの推奨にのみ従う、多腕バンディットにおけるインcentivized explorationを研究する。エージェントが自己利益志向である場合、十分な初期データで初期化されたとき、Thompson sampling がインcentive-compatible になることを示し、この状態に到達するためのサンプル複雑性の多項式上界と下界を提供する。これにより、腕の数 K とベイジアン事前分布に依存する主要な依存関係が解消される。
We consider incentivized exploration: a version of multi-armed bandits where the choice of actions is controlled by self-interested agents, and the algorithm can only issue recommendations. The algorithm controls the flow of information, and the information asymmetry can incentivize the agents to explore. Prior work matches the optimal regret rates for bandits up to constant multiplicative factors determined by the Bayesian prior. However, the dependence on the prior in prior work could be arbitrarily large, and the dependence on the number of arms K could be exponential. The optimal dependence on the prior and K is very unclear. We make progress on these issues. Our first result is that Thompson sampling is incentive-compatible if initialized with enough data points. Thus, we reduce the problem of designing incentive-compatible algorithms to that of sample complexity: (i) How many data points are needed to incentivize Thompson sampling? (ii) How many rounds does it take to collect these samples? We address both questions, providing upper bounds on sample complexity that are typically polynomial in K and lower bounds that are polynomially matching.
研究の動機と目的
- インcentivized explorationに関する先行研究において、腕の数 K やベイジアン事前分布に明確な依存関係がないという問題を解決すること。
- Thompson sampling がインcentive-compatible になるために必要な最小のデータポイント数を特定すること。
- これらの初期データポイントを収集するために必要なラウンド数を分析すること。
- インcentivized explorationにおけるサンプル複雑性に対して、タイトな多項式上界と下界を提供すること。
提案手法
- Thompson sampling が適切に初期化されればインcentive-compatible になることを示し、インcentive-compatible なアルゴリズムの設計をサンプル複雑性問題に還元すること。
- 初期データサイズの関数として、Thompson sampling がインcentive compatibility を維持する条件を分析すること。
- インcentive compatibility を保証するために必要なデータポイント数の上界を導出し、K に対して多項式的依存を示すこと。
- サンプル複雑性の一致する下界を確立し、バウンドが定数因子の範囲でタイトであることを証明すること。
- 情報理論的およびゲーム理論的分析を用いて、情報の非対称性を通じて探索を誘発するための最小データ量を特徴付けること。
実験結果
リサーチクエスチョン
- RQ1多腕バンディットにおけるThompson sampling がインcentive-compatible になるために必要な最小の初期データポイント数は何か?
- RQ2必要なサンプル複雑性は腕の数 K に対してどのようにスケーリングするか?
- RQ3サンプル複雑性はベイジアン事前分布にどのように依存し、その依存関係はどのようにバウンドできるか?
- RQ4必要な初期データポイントを収集するために必要な最小のラウンド数は何か?
- RQ5サンプル複雑性の上界と下界は多項式的で、かつタイトか?
主な発見
- 十分に大きな数のデータポイントで初期化されたとき、Thompson sampling はインcentive-compatible である。
- 必要な初期データポイント数は、腕の数 K に対して多項式的にスケーリングする。
- サンプル複雑性の上界は K の多項式であり、下界も定数因子の範囲で同様のスケーリングを示す。
- ベイジアン事前分布への依存関係はバウンドされており、無制限に増大しない。これにより、先行研究の主要な制限が解消される。
- 必要なデータを収集するために必要なラウンド数も、K の多項式でバウンドされる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。