QUICK REVIEW

[論文レビュー] Bandits with Delayed Anonymous Feedback.

Ciara Pike-Burke, Shipra Agrawal|arXiv (Cornell University)|Sep 20, 2017

Advanced Bandit Algorithms Research被引用数 4

ひとこと要約

本稿は、報酬が確率的遅延を伴い、かつ集約的・匿名的であるような確率的マルチアームバンディットを研究している。報酬はランダムな遅延を伴って到着し、各ラウンドで観測できるのは遅延報酬の合計値のみである。期待遅延が既知である場合、非匿名ケースと同等のレグレット性能を達成するアルゴリズムを提案する。遅延が有界の場合、最悪ケースのレグレットを正確に一致させ、無限大の遅延の場合には対数的要因または分散項の追加で抑えられる。

ABSTRACT

We study a variant of the stochastic $K$-armed bandit problem, which we call with delayed, aggregated anonymous feedback. In this problem, when the player pulls an arm, a reward is generated, however it is not immediately observed. Instead, at the end of each round the player observes only the sum of a number of previously generated rewards which happen to arrive in the given round. The rewards are stochastically delayed and due to the aggregated nature of the observations, the information of which arm led to a particular reward is lost. The question is what is the cost of the information loss due to this delayed, aggregated anonymous feedback? Previous works have studied bandits with stochastic, non-anonymous delays and found that the regret increases only by an additive factor relating to the expected delay. In this paper, we show that this additive regret increase can be maintained in the harder delayed, aggregated anonymous feedback setting when the expected delay (or a bound on it) is known. We provide an algorithm that matches the worst case regret of the non-anonymous problem exactly when the delays are bounded, and up to logarithmic factors or an additive variance term for unbounded delays.

研究の動機と目的

遅延的・集約的・匿名的フィードバックが確率的マルチアームバンディットに与える情報損失の影響を分析すること。
このフィードバック構造が引き起こすレグレットの増加が、特に非匿名的遅延フィードバック設定と比較して有界のままであるかどうかを特定すること。
フィードバックの帰属情報が欠落している状況でも、近似的最適なレグレット性能を維持するアルゴリズムを設計すること。
期待遅延またはその上限に依存する理論的レグレットバウンドを確立すること。
強化学習のフィードバックメカニズムにおける匿名性と遅延の根本的コストを特定すること。

提案手法

期待遅延またはその上限が既知である場合に、遅延報酬の推定値を組み込む新しいバンディットアルゴリズムを提案する。
遅延的・集約的観測によって生じる不確実性を考慮した、変更されたUCBスタイルの探索戦略を用いる。
既知の期待遅延分布に基づく報酬再構成メカニズムを用いて、各アームごとの報酬寄与度を推定する。
遅延的・匿名的フィードバックにもかかわらず報酬推定値の不確実性を制御するため、濃度不等式を適用する。
集約化と遅延プロセスによって生じる分散を補正するための信頼区間調整を導入する。
有界遅延と無限大遅延の両仮定下で、アルゴリズムの性能を非匿名バンディット最適方策との比較によってレグレット解析する。

実験結果

リサーチクエスチョン

RQ1報酬が確率的遅延を伴う場合、バンディットフィードバックにおける匿名性の根本的コストは何か？
RQ2遅延的・集約的・匿名的フィードバック設定におけるレグレットが、非匿名設定と同様に期待遅延に依存する加法的要因で有界に保たれるか？
RQ3フィードバックが集約的かつアーム識別子が失われた場合、バンディットアルゴリズムの性能はどのように低下するか？
RQ4どのような条件下で、レグレットが非匿名遅延バンディット問題のそれと一致するか？
RQ5期待遅延が既知であっても、無限大の遅延分布下で、アルゴリズムが近似的最適なレグレットを達成できるか？

主な発見

遅延が有界の場合、提案アルゴリズムのレグレットは非匿名バンディット問題の最悪ケースレグレットと正確に一致する。
無限大の遅延の場合、非匿名ケースと比較してレグレットは対数的要因または加法的分散項の増加にとどまる。
この性能は、期待遅延またはその上限の知識を活用することで達成される。
匿名性と集約化による情報損失は、乗法的レグレットペナルティを引き起こさず、遅延に依存する加法的ペナルティにとどまる。
理論的解析により、期待遅延が既知である場合、遅延的・匿名的フィードバックのコストは最小限に抑えられることを確認した。
既知の遅延統計のもとで、匿名性そのものが性能を著しく低下させないことを示すことで、非匿名遅延バンディットに関する先行研究を拡張した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。