[论文解读] Deep Active Learning: Unified and Principled Method for Query and Training
本论文提出 WAAL,一种基于 Wasserstein 的统一框架,适用于深度小批量主动学习中的查询与训练,结合分布匹配、对抗训练以及不确定性-多样性查询策略,显示出更好的性能和效率。
In this paper, we are proposing a unified and principled method for both the querying and training processes in deep batch active learning. We are providing theoretical insights from the intuition of modeling the interactive procedure in active learning as distribution matching, by adopting the Wasserstein distance. As a consequence, we derived a new training loss from the theoretical analysis, which is decomposed into optimizing deep neural network parameters and batch query selection through alternative optimization. In addition, the loss for training a deep neural network is naturally formulated as a min-max optimization problem through leveraging the unlabeled data information. Moreover, the proposed principles also indicate an explicit uncertainty-diversity trade-off in the query batch selection. Finally, we evaluate our proposed method on different benchmarks, consistently showing better empirical performances and a better time-efficient query strategy compared to the baselines.
研究动机与目标
- 推动深度批量主动学习,以在减少标注需求的同时提高泛化能力。
- 提供一个通过分布匹配统一查询选择与模型训练的原理框架。
- 证明在该设定中,Wasserstein 距离比 H-发散更能有效捕捉多样性。
- 推导一个通过判别网络利用未标记数据的最小-最大训练目标。
- 开发一个在批量查询中结合不确定性与多样性的实用算法。
提出的方法
- 将主动学习循环建模为带标记/未标记数据分布与数据分布之间的分布匹配,使用 Wasserstein 距离 (W1)。
- 推导一个训练损失,使得分解为学习 DNN 参数和通过交替(min-max)优化来选择查询批次。
- 形式化一个两阶段优化(用 Wasserstein 对抗损失训练 DNN,并通过不确定性-多样性准则查询批次)。
- 使用 Kantorovich-Rubinstein 对偶性来实现带 1-Lipschitz 的 critic g 和特征提取器 f 的 Wasserstein 距离。
- 提出一个两项查询损失,将基于不确定性的分数(极端不确定性或均匀不确定性)与在 Wasserstein 距离下通过运输成本衡量的多样性项结合。
- 引入冗余技巧来处理标记/未标记数据不平衡,以及对 critic 的梯度惩罚以强化 1-Lipschitz 性。
实验结果
研究问题
- RQ1深度批量主动学习能否被表述为标记数据与未标记数据之间的一个有原则性的分布匹配问题?
- RQ2Wasserstein 距离是否在查询批次选择中提供比 H-divergence 更好的多样性衡量?
- RQ3一个统一的最小-最大训练目标,利用未标记数据,是否能提升深度主动学习的性能和效率?
- RQ4在查询阶段显性地平衡不确定性与多样性是否能带来更好的初始训练和更快的收敛?
- RQ5WAAL 在常见图像分类基准上相对标准主动学习基线的表现如何?
主要发现
- WAAL 在 Fashion-MNIST、SVHN 和 CIFAR-10 上在多次实验中持续优于基线。
- 由于有效利用未标记数据,WAAL 在初始训练阶段带来显著改进。
- 消融实验表明基于 Wasserstein 的对抗训练优于基于 H-divergence 的方法。
- WAAL 在查询时间方面与基于不确定性的方法相当或更快,同时引入了多样性。
- 所提出的不确定性-多样性查询策略在批量选择上优于仅基于不确定性或仅基于多样性的方法。
- Table 1 显示在所报告的设定中,WAAL 的查询时间相对于其他方法为单位性 (1)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。