[论文解读] Network of Experts for Large-Scale Image Categorization
本文提出一种树状结构的'专家网络'(NofE)用于大规模图像分类,其中共享的卷积主干网络学习通用特征,同时分裂为针对相似类别子集的专用分支。该方法端到端联合学习类别划分与模型参数,在CIFAR100上实现了最先进性能,且计算开销极低。
We present a tree-structured network architecture for large scale image classification. The trunk of the network contains convolutional layers optimized over all classes. At a given depth, the trunk splits into separate branches, each dedicated to discriminate a different subset of classes. Each branch acts as an expert classifying a set of categories that are difficult to tell apart, while the trunk provides common knowledge to all experts in the form of shared features. The training of our "network of experts" is completely end-to-end: the partition of categories into disjoint subsets is learned simultaneously with the parameters of the network trunk and the experts are trained jointly by minimizing a single learning objective over all classes. The proposed structure can be built from any existing convolutional neural network (CNN). We demonstrate its generality by adapting 4 popular CNNs for image categorization into the form of networks of experts. Our experiments on CIFAR100 and ImageNet show that in every case our method yields a substantial improvement in accuracy over the base CNN, and gives the best result achieved so far on CIFAR100. Finally, the improvement in accuracy comes at little additional cost: compared to the base network, the training time is only moderately increased and the number of parameters is comparable or in some cases even lower.
研究动机与目标
- 通过将复杂分类任务分解为专业化子问题,提升大规模图像分类的准确性。
- 学习最优的、基于数据的相似类别分组(称为'专长'),这些类别在标准CNN中难以区分。
- 利用通用网络的共享特征提升各专家分支的微调效果与整体性能。
- 实现端到端训练统一模型,结合共享主干与专用专家分支。
- 证明该方法可在不显著增加模型大小或训练时间的前提下提升准确率。
提出的方法
- 该方法采用树状结构网络,其中共享卷积主干网络分裂为K个专家分支,每个分支负责一组互不重叠的类别。
- 首先训练通用网络,将图像分类为K个'专长'组,类别划分与网络权重通过单一损失函数联合学习。
- 通用网络训练完成后,使用其最后的卷积层作为特征主干,附加K个独立的专家分支,每个分支在类别子集上进行训练。
- 通过在原始C个类别上使用全局Softmax层,对完整NofE模型进行端到端微调,使所有参数可联合更新。
- 该架构可兼容任何现有CNN,通过将最后的全连接层替换为专用专家结构即可适配。
- 该方法使用标准数据增强与学习率调度策略,先训练通用网络,随后在统一优化过程中对专家进行微调。
实验结果
研究问题
- RQ1能否通过学习基于数据的类别划分(即'专长')来提升细粒度图像识别任务的分类准确率?
- RQ2在专家之间共享通用特征主干是否能带来更好的泛化能力与更快的收敛速度,优于从零开始训练专家?
- RQ3所提出的端到端训练方案能否联合优化类别分组与网络参数,从而超越标准CNN?
- RQ4NofE架构在实现更高准确率的同时,是否保持或降低模型复杂度?
- RQ5NofE方法在CIFAR100和ImageNet等标准基准上的表现是否优于当前最先进模型?
主要发现
- 专家网络(NofE)在CIFAR100上实现了87.3%的top-1准确率,成为发表时的最先进结果。
- 当将四种不同架构(AlexNet、VGG、ResNet、GoogLeNet)适配为NofE框架后,其准确率均显著优于基础CNN。
- NofE模型仅带来适度的训练时间增加,且参数量与基础模型相当甚至更少,实现了更高的准确率。
- 从通用网络的特征进行NofE微调,性能显著优于随机初始化或ImageNet预训练初始化,证明了共享主干的价值。
- 该方法具有通用性,可通过将最后的全连接层替换为树状结构专家架构,适配任何现有CNN。
- 消融实验确认,专长与通用网络的联合学习至关重要,若先独立训练通用网络,性能将明显下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。