QUICK REVIEW

[论文解读] Bootstrapped Thompson Sampling and Deep Exploration

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|Jul 1, 2015

Advanced Bandit Algorithms Research参考文献 11被引用 60

一句话总结

本文提出了一种名为自举贝塔斯普林格采样（Bootstrapped Thompson Sampling）的方法，该方法用基于自举的、利用人工数据的方法替代了显式的后验采样，从而在强化学习中实现有效的探索。该方法无需维护后验分布即可实现类似贝塔斯普林格采样的行为，从而在非线性模型（如深度神经网络）中实现可扩展的深度探索。

ABSTRACT

This technical note presents a new approach to carrying out the kind of exploration achieved by Thompson sampling, but without explicitly maintaining or sampling from posterior distributions. The approach is based on a bootstrap technique that uses a combination of observed and artificially generated data. The latter serves to induce a prior distribution which, as we will demonstrate, is critical to effective exploration. We explain how the approach can be applied to multi-armed bandit and reinforcement learning problems and how it relates to Thompson sampling. The approach is particularly well-suited for contexts in which exploration is coupled with deep learning, since in these settings, maintaining or generating samples from a posterior distribution becomes computationally infeasible.

研究动机与目标

解决在深度强化学习中维护和从后验分布中采样的计算不可行性。
开发一种可处理的贝塔斯普林格采样的替代方法，保留其探索特性，同时无需显式贝叶斯推断。
通过基于自举的人工数据生成方法，实现深度探索——即探索那些并非立即带来奖励但有助于未来信息获取的动作。
提供一种可扩展且可并行化的框架，适用于大规模、非线性参数化模型（如深度神经网络）。
弥合贝塔斯普林格采样在理论上的最优性与在复杂、基于深度学习的序列决策系统中实际部署之间的差距。

提出的方法

将观测到的历史数据与人工生成的数据结合，形成用于模型训练的混合数据集。
使用自举技术从组合数据集的经验分布中采样，生成随机化模型。
在每个回合中，从使用自举数据集训练出的K个模型中随机采样一个模型（例如，一个深度神经网络）。
使用所采样模型的贪婪策略来平衡利用与探索。
通过引入具有随机乐观奖励和随机转移的人工数据，以促进探索。
通过并行计算实现增量式模型更新，从而在无需每次回合后完全重训的情况下实现高效的在线学习。

实验结果

研究问题

RQ1基于自举的方法是否能在不显式维护后验分布的情况下，复现贝塔斯普林格采样的探索行为？
RQ2如何构建人工数据，以确保在多臂赌博机和强化学习问题中实现充分且有效的探索？
RQ3该方法是否可扩展至后验采样在计算上不可行的深度神经网络模型？
RQ4引入人工数据是否能提升探索效果，超越标准自举或子采样方法？
RQ5该方法是否能在非线性函数逼近器中支持深度探索——即选择那些虽不立即带来奖励但对未来学习具有信息价值的动作？

主要发现

所提出的方法在无需显式后验计算或采样的情况下，实现了类似贝塔斯普林格采样的探索行为。
具有随机乐观奖励和随机转移的人工数据在诱导有效探索方面至关重要，尤其是在深度学习设置中。
该算法通过支持不立即带来奖励但有助于后续步骤更有效学习的动作，实现了深度探索。
该方法具有可扩展性和可并行性，适用于大规模强化学习中的深度神经网络。
通过并行自举采样实现的增量模型更新，使得在无需每次回合后完全重训的情况下，也能实现高效的在线学习。
在非线性与高维设置中，该方法在探索有效性方面优于标准自举和子采样方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。