[论文解读] Sharpened Generalization Bounds based on Conditional Mutual Information and an Application to Noisy, Iterative Algorithms
该论文将条件互信息(CMIkD)与信息论泛化度量相关联,证明 CMIkD 的界限比 IOMI 的界限更紧,并将其应用于朗之万动力学,提出一种通过优化轨迹学习数据集索引的新型广义先验。
The information-theoretic framework of Russo and J. Zou (2016) and Xu and Raginsky (2017) provides bounds on the generalization error of a learning algorithm in terms of the mutual information between the algorithm's output and the training sample. In this work, we study the proposal, by Steinke and Zakynthinou (2020), to reason about the generalization error of a learning algorithm by introducing a super sample that contains the training sample as a random subset and computing mutual information conditional on the super sample. We first show that these new bounds based on the conditional mutual information are tighter than those based on the unconditional mutual information. We then introduce yet tighter bounds, building on the "individual sample" idea of Bu, S. Zou, and Veeravalli (2019) and the "data dependent" ideas of Negrea et al. (2019), using disintegrated mutual information. Finally, we apply these bounds to the study of Langevin dynamics algorithm, showing that conditioning on the super sample allows us to exploit information in the optimization trajectory to obtain tighter bounds based on hypothesis tests.
研究动机与目标
- 在不同学习情景下刻画 IOMI 与 CMI^k_D 之间的关系。
- 推导将泛化误差与与随机索引子集的互信息相关联的新泛化界限。
- 将这些界限应用于带噪声的迭代算法(朗之万动力学),使用轨迹信息化的广义先验。
- 显示与现有信息论界限相比的新界限在实际中更紧,尤其是在训练后期。
提出的方法
- 定义 CMIkD(A) = I(W; U(k) | ~Z(k)) 并将其与 IOMI_D(A) 及稳定性概念相关联。
- 证明对任意数据分布、算法和 k,CMIkD(A) ≤ IOMI_D(A),并且当参数空间有限时,随着 k → ∞,CMIkD(A) 收敛至 IOMI_D(A)。
- 基于先前工作中的随机索引和超样本结构,建立两种新的泛化界限。
- 构建一个用于朗之万动力学的广义先验和后验,从优化轨迹中学习索引值。
- 给出实证比较,显示新界限在后期训练阶段更紧,优于先前界限。
实验结果
研究问题
- RQ1CMIkD(A) 在不同学习情景和 k 下与 IOMI_D(A) 的关系如何?
- RQ2是否可以推导将泛化误差与随机索引子集的互信息联系起来的泛化界限?
- RQ3这些界限能否有效应用于带噪声的迭代算法,如使用轨迹信息先验的朗之万动力学?
- RQ4新界限在长时间训练并出现过拟合时是否仍然非空泛且不发散?
主要发现
- CMIkD(A) 对于任意数据分布、算法和 k,总是小于 IOMI_D(A)。
- 当参数空间有限时,随着 k 增大,CMIkD(A) 收敛到 IOMI_D(A)。
- 两个新颖界限将泛化与随机索引子集及超样本的互信息联系起来,且比基于 CMIkD(A) 的界限更紧。
- 针对朗之万动力学,引入了从优化轨迹学习数据集索引的广义先验。
- 实证结果显示新界限优于现有界限,尤其在训练后期和强过拟合情况下。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。