Skip to main content
QUICK REVIEW

[論文レビュー] Sequential Transfer in Multi-armed Bandit with Finite Set of Models

Mohammad Gheshlaghi Azar, Alessandro Lazaric|arXiv (Cornell University)|Jul 25, 2013
Advanced Bandit Algorithms Research参考文献 26被引用数 52
ひとこと要約

本稿では、有限個のモデルからなるマルチアームバンディットに対して、モデル平均を推定するために頑健テンソルパワー法(RTP)を用いたモーメント法のアプローチを採用する順次的転移アルゴリズムtUCBを提案する。tUCBは初期エピソードではUCBと同等のレグレットバウンドを達成し、モデルが事前に分かっている場合の理想性能に近づく。負の転移を回避し、タスクの識別子が未知である場合でも効率的な知識再利用を可能にする。

ABSTRACT

Learning from prior tasks and transferring that experience to improve future performance is critical for building lifelong learning agents. Although results in supervised and reinforcement learning show that transfer may significantly improve the learning performance, most of the literature on transfer is focused on batch learning tasks. In this paper we study the problem of extit{sequential transfer in online learning}, notably in the multi-armed bandit framework, where the objective is to minimize the cumulative regret over a sequence of tasks by incrementally transferring knowledge from prior tasks. We introduce a novel bandit algorithm based on a method-of-moments approach for the estimation of the possible tasks and derive regret bounds for it.

研究の動機と目的

  • タスクが有限個のバンディットモデルの集合から抽出され、その識別子が未知であるオンライン学習設定において、効率的な知識転移を可能にすること。
  • 初期エピソードではUCBと同等の性能を示し、モデルの完全な知識を持つオラクルに近づくが、負の転移を回避するバンディットアルゴリズムの開発。
  • 部分的フィードバックと隠れたモデル構造を伴う確率的マルチアームバンディットにおける順次的転移の理論的レグレットバウンドの提供。
  • タスクの識別子が観測されない状況でも、頑健テンソルパワー法を用いて、すべてのタスクにおけるアーム平均(モデルパラメータ)を推定すること。

提案手法

  • 観測された報酬が隠れたモデルの下で条件付きi.i.d. に生成され、モデルの識別子が観測されない潜在変数モデル(LVM)を採用する。
  • 観測されたアームプルの3次モーメントテンソルを分解することで、すべてのモデルにおけるアーム平均を推定するために頑健テンソルパワー法(RTP)を適用する。
  • LVMフレームワーク下でモデル平均の一貫性のある推定を保証するため、各アーム・各モデルで少なくとも3回のプルが必要である。
  • 推定されたモデル平均を組み込むことで、UCBアルゴリズムを拡張し、tUCBを構築する。これにより、後続のタスクにおけるレグレットを低減する。
  • 2次および3次モーメントテンソル $ M_2 = \sum_\theta \rho(\theta) \mu(\theta)^{\otimes 2} $, $ M_3 = \sum_\theta \rho(\theta) \mu(\theta)^{\otimes 3} $ を用い、テンソル分解によりモデルパラメータを回復する。
  • tUCBが初期エピソードでUCBと同等の性能を示し、モデル推定が収束するに従って性能が向上することを保証することで、負の転移を回避する。

実験結果

リサーチクエスチョン

  • RQ1タスクの識別子が未知であるオンラインマルチアームバンディット設定において、過去のタスクからの知識を効果的に転移できるか?
  • RQ2タスクの識別子が観測されない状況でも、テンソル分解を用いたモーメント法のアプローチが、有限個のバンディットモデルにおけるモデル平均を一貫して推定できるか?
  • RQ3提案されたtUCBアルゴリズムが、初期エピソードではUCBと同等のレグレットバウンドを達成し、全モデルの知識を持つオラクルに近づく性能を示すか?
  • RQ4RTPを用いてモデル平均を一貫して推定するための、アーム1つあたりの最小プル回数はどの程度か?

主な発見

  • tUCBは初期エピソードでUCBと同等のレグレットを達成し、初期学習段階での負の転移が発生しないことを保証する。
  • tUCBのレグレットは、事前にすべてのモデルを知っているオラクルの性能に近づく。これは、長期的な知識転移の有効性を示している。
  • アーム1つあたりのモデルで少なくとも3回のプルがあれば、頑健テンソルパワー法(RTP)がモデル平均の一貫した推定を提供し、信頼性のある転移を可能にする。
  • 合成データでは、10,000タスク、各タスク5,000ステップの条件下で、tUCBの平均レグレットは3.27にまで低下した。これに対して標準的なUCBでは26.57であった。
  • RTPによるモーメント法のアプローチにより、タスクの識別子やモデル分布の事前知識がなくても、マルチアームバンディットにおける転移学習が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。