QUICK REVIEW

[论文解读] Sequential Transfer in Multi-armed Bandit with Finite Set of Models

Mohammad Gheshlaghi Azar, Alessandro Lazaric|arXiv (Cornell University)|Jul 25, 2013

Advanced Bandit Algorithms Research参考文献 26被引用 52

一句话总结

本文提出 tUCB，一种针对具有有限模型集合的多臂赌博机的序列化迁移算法，采用矩方法通过鲁棒张量幂法（RTP）估计模型均值。其遗憾边界在早期回合中与 UCB 一致，并在模型事先已知时趋近理想性能，避免负迁移，并实现未知身份任务间的高效知识复用。

ABSTRACT

Learning from prior tasks and transferring that experience to improve future performance is critical for building lifelong learning agents. Although results in supervised and reinforcement learning show that transfer may significantly improve the learning performance, most of the literature on transfer is focused on batch learning tasks. In this paper we study the problem of extit{sequential transfer in online learning}, notably in the multi-armed bandit framework, where the objective is to minimize the cumulative regret over a sequence of tasks by incrementally transferring knowledge from prior tasks. We introduce a novel bandit algorithm based on a method-of-moments approach for the estimation of the possible tasks and derive regret bounds for it.

研究动机与目标

在任务来自有限的赌博机模型集合且身份未知的在线学习场景中，实现高效的知识迁移。
开发一种避免负迁移的赌博机算法，在早期回合中表现如同 UCB，同时随着时间推移趋近于已知完整模型知识的“预言家”性能。
为部分反馈和潜在模型结构下的随机多臂赌博机中的序列化迁移提供理论遗憾边界。
在未观测到任务身份的情况下，利用鲁棒张量幂法估计跨任务的底层模型参数（臂均值）。

提出的方法

采用隐变量模型（LVM），其中观测到的奖励在给定隐藏模型的条件下条件独立同分布，且模型身份未被观测。
应用鲁棒张量幂法（RTP）通过分解观测到的臂拉动的三阶矩张量，来估计所有模型中臂的均值。
要求每个模型中每条臂至少有三次拉动，以确保在 LVM 框架下模型均值的一致估计。
通过整合估计的模型均值来引导探索并减少后续任务中的遗憾，将 UCB 扩展为 tUCB。
使用二阶和三阶矩张量：$ M_2 = \sum_\theta \rho(\theta) \mu(\theta)^{\otimes 2} $，$ M_3 = \sum_\theta \rho(\theta) \mu(\theta)^{\otimes 3} $，通过张量分解恢复模型参数。
保证 tUCB 通过在早期回合中匹配 UCB 的性能，随模型估计收敛而逐步改进，从而避免负迁移。

实验结果

研究问题

RQ1在任务身份未知的在线多臂赌博机场景中，能否有效迁移先前任务的知识？
RQ2在未观测到任务身份的情况下，基于矩方法的张量分解能否一致估计有限集合中多臂赌博机模型的均值？
RQ3所提出的 tUCB 算法是否在早期回合中实现与 UCB 相当的遗憾边界，并趋近于已知所有模型的“预言家”性能？
RQ4使用 RTP 一致估计模型均值所需的每条臂每模型的最少拉动次数是多少？

主要发现

tUCB 在早期回合中实现的遗憾与 UCB 一致，确保初始学习阶段不会发生负迁移。
tUCB 的遗憾趋近于已知所有模型的“预言家”性能，证明了长期知识迁移的有效性。
当每条臂每模型至少有三次拉动时，鲁棒张量幂法（RTP）能提供一致的模型均值估计，从而实现可靠的迁移。
在合成数据上，tUCB 在 10,000 个任务、每个任务 5,000 步的设置下，将平均遗憾降低至 3.27，而标准 UCB 的遗憾为 26.57。
通过 RTP 的矩方法实现了多臂赌博机中的迁移学习，无需任务身份信息或对模型分布的先验知识。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。