[论文解读] Why M Heads are Better than One: Training a Diverse Ensemble of Deep Networks
本文提出了一种统一框架,通过引入TreeNets(共享早期层并具有专门化深层的模型)以及面向集成的损失函数,实现多样化、高性能深度神经网络集成的训练。该方法通过在Multiple Choice Learning(MCL)损失下进行训练,并在TreeNets中采用参数共享,显著提升了集成模型的准确率,在ILSVRC-AlexNet上实现了高达74.67%的oracle准确率,优于标准集成模型。
Convolutional Neural Networks have achieved state-of-the-art performance on a wide range of tasks. Most benchmarks are led by ensembles of these powerful learners, but ensembling is typically treated as a post-hoc procedure implemented by averaging independently trained models with model variation induced by bagging or random initialization. In this paper, we rigorously treat ensembling as a first-class problem to explicitly address the question: what are the best strategies to create an ensemble? We first compare a large number of ensembling strategies, and then propose and evaluate novel strategies, such as parameter sharing (through a new family of models we call TreeNets) as well as training under ensemble-aware and diversity-encouraging losses. We demonstrate that TreeNets can improve ensemble performance and that diverse ensembles can be trained end-to-end under a unified loss, achieving significantly higher "oracle" accuracies than classical ensembles.
研究动机与目标
- 将深度神经网络集成视为一个首要问题,而非事后处理过程。
- 研究参数共享、面向集成的损失函数以及鼓励多样性的训练策略对集成性能的影响。
- 开发一种可扩展的分布式训练框架,用于耦合集成模型,以克服GPU内存和训练时间的限制。
- 在多个数据集和网络架构上评估多样性在深度神经网络集成中的有效性。
- 证明最优集成并非传统的独立模型,而是如TreeNets这类结构化共享架构。
提出的方法
- 提出TreeNets,一类树状结构的深度神经网络,其集成成员共享早期层,并可控制参数共享的深度。
- 引入一种面向集成的损失函数,通过最小化集成平均模型的损失,以促进整体性能。
- 设计一种Multiple Choice Learning(MCL)损失,通过将各集成成员视为不同预测子集上的专家,显式鼓励成员间的多样性。
- 利用批量间的梯度累积,使更大网络在MCL损失下能够实现专业化。
- 设计并实现MPI-Caffe,一种基于MPI进行跨GPU通信的分布式深度学习框架,支持耦合集成模型的模型并行训练。
- 在Caffe中引入通信层(MPIBroadcast与MPIGather),以支持具有共享或耦合组件的集成模型的分布式训练。
实验结果
研究问题
- RQ1在早期层中采用参数共享是否能在减少模型参数的同时提升集成性能?
- RQ2在面向集成的损失下进行训练(该损失优化集成平均模型)是否相比独立训练能提升泛化性能?
- RQ3如MCL这类鼓励多样性的损失是否能显著提升深度神经网络集成的oracle准确率?
- RQ4在深度集成架构中,参数共享与模型独立性之间的最优权衡是什么?
- RQ5如MPI-Caffe这样的分布式训练框架是否能使大规模、耦合集成训练变得实际且高效?
主要发现
- 采用1–2个共享初始层的TreeNets在性能上优于传统独立集成模型,且在中等共享水平下表现最优。
- 从单个网络微调开始,采用MCL损失训练可将oracle准确率提升至72.67%,而相同初始条件下的独立集成模型仅为56.90%。
- 当与交叉熵损失结合时,MCL损失使CIFAR10集成平均准确率相比标准集成模型提升1%。
- 采用MCL损失训练的集成模型相比传统集成模型实现了显著更高的oracle准确率,证明了显式诱导多样性的价值。
- MPI-Caffe框架中的通信开销极低——即使在大型层(如pool2,含3600万浮点数)上,通信时间也仅占前向-反向传播时间的0.49%。
- 研究结果表明,多样性在高层特征表示中最为有效,而早期层则因通用特征学习而受益于权重共享。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。