Skip to main content
QUICK REVIEW

[論文レビュー] Continuous-time multi-armed bandits under random intervention times

Kei Noba, José Luis Pérez|arXiv (Cornell University)|Mar 4, 2026
Advanced Bandit Algorithms Research被引用数 0
ひとこと要約

この論文は、ランダムな再生間隔を伴う連続時間のマルチアームバンディットに対する明示的なGittins指標の特徴付けを導出し、Lévy駆動アームや指数間隔のケースを含めて、Gittins戦略の最適性を証明する。

ABSTRACT

This paper examines multi-armed bandits in which actions are taken at random discrete times. The model consists of $J$ independent arms. When an arm is operated, it must remain active for a random duration, modeled by the inter-arrival time of a (possibly arm-dependent) renewal process. For arms evolving as a Lévy process, we provide an explicit characterization of the Gittins index, which is known to yield an optimal strategy. Furthermore, when the inter-arrival times are exponential and the arms evolve as either a spectrally negative Lévy process, a reflected spectrally negative Lévy process, or a diffusion process, the Gittins index is explicitly characterized in terms of the scale function or diffusion characteristics, respectively. Numerical experiments are performed to support the theoretical results.

研究の動機と目的

  • Actionがランダムな時刻に行われ、アームがランダム再生でアクティブのままになるマルチアームバンディットの研究動機を示す。
  • アームがLévy過程として進化する場合の明示的なGittins指標の特徴付けを提供する。
  • スペクトル的にネガティブなLévy、反射スペクトル的ネガなLévy、拡散アームに対する指数的再生時間の下での明示的なGittins指標式を導出する。
  • 指数再生率と古典的な連続時間指標との関連を示す漸近・収束結果を示す。

提案手法

  • J個の独立したアームとアーム固有の再生時刻を持つマルチアームバンディットを定義する。
  • 割引報酬と各アームの最適停止問題としてのGittins指標を定式化する。
  • フラクチュエーション理論を用いてLévy駆動アームの一般的なGittins指標式を導出する。
  • スケール関数または拡散特性を用いて、スペクトル的にネガなLévy、反射スペクトル的ネガなLévy、拡散過程の指数間隔時間下での明示的指標式を得る。
  • 指数率の大きさに対する漸近的挙動と収束結果を証明し、測度mu^λのmu^∞への弱収束を含む。

実験結果

リサーチクエスチョン

  • RQ1アームが一般的なLévy過程とランダム再生時刻を持つ場合、Gittins指標はどのように明示的に特徴付けられるか?
  • RQ2スペクトル的にネガなLévy、反射スペクトル的ネガなLévy、拡散アームに対する指数再生時間下のGittins指標の明示的形はどうなるか?
  • RQ3再生率が大きくなるとGittins指標はどう振る舞い、古典的連続時間指標へ収束するか?
  • RQ4アーム依存の再生時間の下でもGittins指標方針は最適性を保つか?
  • RQ5フラクチュエーション理論とスケール関数をこれらの設定で指標を計算するためにどう活用できるか?

主な発見

  • ランダム介入時間を伴う連続時間バンディットにおいてGittins指標戦略は最適である。
  • 一般的なLévy過程アームに対して明示的なGittins指標の特徴付けが得られた。
  • 指数再生時間では、スペクトル的ネガ、反射スペクトル的ネガ、拡散アームについて、スケール関数または拡散データの形で閉形式の指標式が導かれた。
  • 指数レートの増加に伴い指標は連続時間の極限へ収束し、弱収束結果mu^λ ⇒ mu^∞を介して示される。
  • 再生率が0に近づくと指標は報酬関数に収束する漸近挙動を示す。
  • 理論結果を裏付ける数値実験が提供されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。