[论文解读] Large-Scale Visual Active Learning with Deep Probabilistic Ensembles
本文提出深度概率集成(DPEs),一种可扩展的方法,通过KL正则化训练深度神经网络集成,以近似贝叶斯神经网络,从而实现在主动学习中可靠的不确定性估计。DPEs在大规模图像分类(CIFAR-10、CIFAR-100、ImageNet)和语义分割(BDD100k)任务中达到最先进性能,将标注成本降低高达32%,同时提升性能,尤其在长尾分布中低频类上表现更优。
Annotating the right data for training deep neural networks is an important challenge. Active learning using uncertainty estimates from Bayesian Neural Networks (BNNs) could provide an effective solution to this. Despite being theoretically principled, BNNs require approximations to be applied to large-scale problems, where both performance and uncertainty estimation are crucial. In this paper, we introduce Deep Probabilistic Ensembles (DPEs), a scalable technique that uses a regularized ensemble to approximate a deep BNN. We conduct a series of large-scale visual active learning experiments to evaluate DPEs on classification with the CIFAR-10, CIFAR-100 and ImageNet datasets, and semantic segmentation with the BDD100k dataset. Our models require significantly less training data to achieve competitive performances, and steadily improve upon strong active learning baselines as the annotation budget is increased.
研究动机与目标
- 解决大规模深度学习中选择具有信息量样本进行标注的挑战,其中不确定性估计至关重要但计算成本高昂。
- 克服贝叶斯神经网络(BNNs)在大规模模型和数据集上可扩展性与不确定性估计方面的局限。
- 通过结合贝叶斯不确定性可靠性与集成方法的可扩展性和效率,提升主动学习性能。
- 在语义分割中实现有效的主动学习,尤其针对长尾数据集(如BDD100k)中低频类。
- 开发一种实用、即插即用的方法,可无缝集成到现有深度学习流水线中,且计算开销极小。
提出的方法
- 提出深度概率集成(DPEs),一种通过KL散度正则化近似贝叶斯神经网络变分推断的正则化集成方法。
- 使用相同架构但不同随机初始化训练多个深度神经网络,对每个模型的权重与共享先验之间应用KL正则化项。
- 利用集成中各模型预测结果的方差作为模型不确定性的代理,实现不确定性感知的主动学习获取函数。
- 引入类别加权获取函数 $V_w = \sum_{k \in K} \mathbf{w}_k \text{Var}_e(\mathbf{p}_k^{(e)})$,在主动学习中优先考虑低频类别。
- 将DPEs应用于图像分类和语义分割任务,使用标准训练与推理流水线,仅需极少的架构修改。
- 通过保持与标准集成相同的计算成本,确保推理效率,仅在训练阶段因正则化项引入微小开销。
实验结果
研究问题
- RQ1正则化集成方法是否能有效近似大规模视觉任务中深度神经网络的贝叶斯不确定性?
- RQ2所提出的KL正则化集成方法在图像分类基准上是否在样本效率方面优于标准集成和现有主动学习基线?
- RQ3DPEs是否能提升语义分割中的主动学习性能,尤其在长尾数据集中罕见或低频类上?
- RQ4与标准不确定性获取函数相比,类别加权获取函数 $V_w$ 如何提升特定目标类别的模型性能?
- RQ5DPEs在ImageNet和BDD100k等大规模数据集上,能在多大程度上减少达到高性能所需的标注预算?
主要发现
- 在CIFAR-10、CIFAR-100和ImageNet上,DPEs实现了最先进的主动学习性能,优于强基线方法,将标注预算降低高达32%即可达到上界准确率的95%。
- 在BDD100k的语义分割任务中,DPEs在26.9k个训练图像块下相比随机采样提升2%的平均IoU,相比标准集成提升1%。
- 对于低频类别如摩托车(仅240个训练样本),DPEs相比随机基线实现20%的IoU绝对提升。
- 使用类别加权获取函数 $V_w$,DPEs在交通标志类别上相比标准不确定性获取函数提升2%的IoU,将与完全监督上界之间的差距从3.7%缩小至1.7%。
- DPEs仅使用32%的训练数据即可恢复完全监督上界96.2%的性能,展现出极高的样本效率。
- 该方法保持与标准集成相当的推理速度,仅在训练阶段引入可忽略的额外开销,适用于实际部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。