[論文レビュー] Adaptive Sequential Experiments with Unknown Information Flows
本稿は、意思決定のエポックの間において時間的に変動する任意の補助情報が到着する状況を組み込んだ一般化されたマルチアームバンディット(MAB)フレームワークを導入する。動的にカスタマイズされた仮想時間インデックスを用いた適応的探索手法を提案し、ベースラインMAB方策の探索レートを内生的に制御することで、情報到着プロセスの事前知識がなくても最適なレグレットレートを達成可能にする。また、このような状況下でもトンプソンサンプリングのロバスト性を示している。
Systems that make sequential decisions in the presence of partial feedback on actions often need to strike a balance between maximizing immediate payoffs based on available information, and acquiring new information that may be essential for maximizing future payoffs. This trade-off is captured by the multi-armed bandit (MAB) framework that has been studied and applied for designing sequential experiments when at each time epoch a single observation is collected on the action that was selected at that epoch. However, in many practical settings additional information may become available between decision epochs. We introduce a generalized MAB formulation in which auxiliary information on each arm may appear arbitrarily over time. By obtaining matching lower and upper bounds, we characterize the minimax complexity of this family of MAB problems as a function of the information arrival process, and study how salient characteristics of this process impact policy design and achievable performance. We establish the robustness of a Thompson sampling policy in the presence of additional information, but observe that other policies that are of practical importance do not exhibit such robustness. We therefore introduce a broad adaptive exploration approach for designing policies that, without any prior knowledge on the information arrival process, attain the best performance (in terms of regret rate) that is achievable when the information arrival process is a priori known. Our approach is based on adjusting MAB policies designed to perform well in the absence of auxiliary information by using dynamically customized virtual time indexes to endogenously control the exploration rate of the policy. We demonstrate our approach through appropriately adjusting known MAB policies and establishing improved performance bounds for these policies in the presence of auxiliary information.
研究の動機と目的
- 意思決定のエポックの間で予測不能に補助情報が到着する状況における逐次的意思決定の課題に対処すること。
- 任意の情報到着プロセス下でのMAB問題のミニマックス複雑度を同定すること。
- 情報到着プロセスが事前に不明な状況においても最適なレグレット性能を達成する適応的方策を設計すること。
- 補助情報の存在下で、トンプソンサンプリング以外の標準的方策が果たす限界を示し、トンプソンサンプリングのロバスト性を示すこと。
提案手法
- 意思決定エポックの間における各アームの補助情報の到着時刻が任意であることを許容する一般化されたMAB定式化を導入する。
- 情報到着プロセスの関数としてミニマックスレグレットの一致する下界と上界を確立し、ミニマックス複雑度を同定する。
- ベースラインMAB方策の探索レートを内生的に制御するため、動的にカスタマイズされた仮想時間インデックスを用いた、新規の適応的探索フレームワークを提案する。
- UCB やトンプソンサンプリングといった既知のMAB方策を、情報の可用性の変化を反映する仮想時間インデックスを組み込むことで調整する。
- その結果得られる方策が、情報到着プロセスが事前に分かっている場合に達成可能な最適なレグレットレートを達成することを証明する。
- トンプソンサンプリングが補助情報の存在下でもロバストであるのに対し、他の標準的方策は同様のロバスト性を示さないことを示す。
実験結果
リサーチクエスチョン
- RQ1補助情報の到着プロセスは、部分的フィードバック下での逐次的意思決定におけるミニマックスレグレットにどのように影響するか?
- RQ2情報到着プロセスの事前知識がなくても、あらゆる可能なプロセスに対して最適なレグレット性能を達成できる単一の方策を設計可能か?
- RQ3なぜトンプソンサンプリングは補助情報の存在下でもロバストであるのに対し、他のMAB方策はそうではないのか?
- RQ4情報到着タイミングの構造的影響は、MAB問題における効果的な探索戦略の設計にどのように作用するか?
- RQ5仮想時間インデックスは、動的に変化する情報可用性に適応する既存のMAB方策をどのように調整できるか?
主な発見
- 提案された一般化されたMABフレームワークにおけるミニマックスレグレットは、情報到着プロセスの関数として同定され、明示的な下界と上界が確立された。
- トンプソンサンプリングは補助情報の追加に対してもロバストであり、到着プロセスが未知であっても最適な性能を維持する。
- UCB などのトンプソンサンプリング以外の方策は、補助情報が存在する場合には、特に適応的改造が施されない限り最適性を失う。
- 仮想時間インデックスを用いた適応的探索フレームワークにより、いかなるベースラインMAB方策も、情報到着プロセスが事前に分かっている場合に達成可能な最適なレグレットレートを達成可能になる。
- 仮想時間インデックスメカニズムは、情報到着の速度とタイミングを反映することで、探索を動的に制御し、性能の上限を改善する。
- 本手法は一般性に富み、任意の情報フローを持つ状況において、既知のMAB方策を調整することで、改善されたレグレット保証が得られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。