[论文解读] Neural Thompson Sampling
该论文提出神经汤普森采样(Neural Thompson Sampling, NeuralTS),一种上下文Bandit算法,其使用深度神经网络并引入一种新颖的后验分布——其中均值为神经网络输出,方差由神经正切特征(Neural Tangent Features)推导得出。该方法实现了 $\mathcal{O}(T^{1/2})$ 的累积遗憾,与上下文Bandit的最优界限一致,并在基准数据集上通过实证验证,表现出强劲性能。
Thompson Sampling (TS) is one of the most effective algorithms for solving contextual multi-armed bandit problems. In this paper, we propose a new algorithm, called Neural Thompson Sampling, which adapts deep neural networks for both exploration and exploitation. At the core of our algorithm is a novel posterior distribution of the reward, where its mean is the neural network approximator, and its variance is built upon the neural tangent features of the corresponding neural network. We prove that, provided the underlying reward function is bounded, the proposed algorithm is guaranteed to achieve a cumulative regret of $\mathcal{O}(T^{1/2})$, which matches the regret of other contextual bandit algorithms in terms of total round number $T$. Experimental comparisons with other benchmark bandit algorithms on various data sets corroborate our theory.
研究动机与目标
- 开发一种汤普森采样算法,有效整合深度神经网络以在上下文Bandit中实现探索与利用的平衡。
- 为基于神经网络的汤普森采样提供理论遗憾保证,此前此类保证仅限于更简单的模型。
- 设计一种后验分布,其中均值为神经网络预测值,方差基于神经正切特征,从而实现合理的不确定性量化。
- 在真实世界基准数据集上,通过实证验证该算法相较于最先进基线方法的性能表现。
提出的方法
- 该算法使用一个带有 ReLU 激活函数和缩放输出的全连接前馈神经网络 $ f(\mathbf{x}; \bm{\theta}) $,以建模期望奖励。
- 构建一种新颖的后验分布,其均值为 $ f(\mathbf{x}; \bm{\theta}) $,方差为 $ \sigma_{t,k}^2 = \lambda \mathbf{g}^\top(\mathbf{x}_{t,k}; \bm{\theta}_{t-1}) \mathbf{U}_{t-1}^{-1} \mathbf{g}(\mathbf{x}_{t,k}; \bm{\theta}_{t-1}) / m $,其中 $ \mathbf{g} $ 为神经正切特征向量。
- 奖励估计中的不确定性来源于经验Fisher信息矩阵 $ \mathbf{U}_{t-1} $ 的逆,该矩阵通过神经正切核(NTK)近似得到。
- 通过从该后验分布中抽样来应用汤普森采样,以选择下一个动作,从而在探索与利用之间实现平衡。
- 遗憾分析利用有效维度 $ \widetilde{d} $,其定义为 $ \widetilde{d} = \log \det(\mathbf{I} + \mathbf{H}/\lambda) / \log(1 + TK) $,其中 $ \mathbf{H} $ 为 NTK 格拉姆矩阵。
- 利用集中不等式和矩阵分析,推导出神经正切特征范数和后验方差的高概率界。
实验结果
研究问题
- RQ1基于神经网络的汤普森采样算法是否能在上下文Bandit中实现接近最优的遗憾界?
- RQ2在Bandit设置中,如何对深度神经网络预测的不确定性进行合理量化,以实现有效的探索?
- RQ3采用神经正切特征进行方差估计的汤普森采样算法,其理论遗憾性能如何?
- RQ4在遗憾和累积奖励方面,所提出方法与现有神经Bandit算法相比,实证表现如何?
主要发现
- 所提出的神经汤普森采样算法实现了 $ \mathcal{O}(T^{1/2}) $ 的累积遗憾,与上下文Bandit的最优速率一致。
- 遗憾界为 $ \widetilde{\mathcal{O}}(\widetilde{d} \sqrt{T}) $,其中 $ \widetilde{d} $ 为有效维度,且在线性情况下该界为紧致。
- 该算法通过神经正切核,为网络所有层提供了系统化的不确定性整合方式,而以往方法仅关注最后一层。
- 在多个基准数据集上的实证评估表明,NeuralTS 与最先进基线方法相比表现具有竞争力,证实了其实际应用价值。
- 理论分析表明,后验方差以高概率有界,从而确保了探索的稳定性。
- 当上下文位于由 NTK 所诱导的再生核Hilbert空间(RKHS)的低维非线性子空间中时,有效维度 $ \widetilde{d} $ 被限制在 $ d' + 1 $ 以内,其中 $ d' $ 为该子空间的固有维度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。