[论文解读] HD-CNN: Hierarchical Deep Convolutional Neural Network for Large Scale Visual Recognition
本文提出HD-CNN,一种分层深度卷积神经网络,通过将类别组织为从粗到细的层次结构,利用组件级预训练和带一致性正则化的全局微调,改进大规模图像分类。通过条件执行和层参数压缩,其在CIFAR100和ImageNet 1000上实现了最先进性能,与标准CNN相比,top-1错误率最高降低3.1%。
In image classification, visual separability between different object categories is highly uneven, and some categories are more difficult to distinguish than others. Such difficult categories demand more dedicated classifiers. However, existing deep convolutional neural networks (CNN) are trained as flat N-way classifiers, and few efforts have been made to leverage the hierarchical structure of categories. In this paper, we introduce hierarchical deep CNNs (HD-CNNs) by embedding deep CNNs into a category hierarchy. An HD-CNN separates easy classes using a coarse category classifier while distinguishing difficult classes using fine category classifiers. During HD-CNN training, component-wise pretraining is followed by global finetuning with a multinomial logistic loss regularized by a coarse category consistency term. In addition, conditional executions of fine category classifiers and layer parameter compression make HD-CNNs scalable for large-scale visual recognition. We achieve state-of-the-art results on both CIFAR100 and large-scale ImageNet 1000-class benchmark datasets. In our experiments, we build up three different HD-CNNs and they lower the top-1 error of the standard CNNs by 2.65%, 3.1% and 1.1%, respectively.
研究动机与目标
- 为解决大规模图像分类中物体类别间视觉可分性不均衡的问题,其中某些类别本质上更难区分。
- 克服标准CNN中平坦的N路分类器的局限性,后者将所有类别同等对待,未利用层次关系。
- 设计一种可扩展、高效且准确的分层深度CNN架构,可动态将困难类别路由至专用细粒度分类器。
- 通过结合组件级预训练与使用粗类别一致性正则化的全局微调,实现分层模型的有效训练。
- 通过层参数压缩和细分类器的条件执行,降低推理成本和内存占用。
提出的方法
- HD-CNN将图像分类建模为两阶段过程:首先由粗类别分类器分离出易于区分的类别,而难以区分的类别则被路由至专用的细类别分类器。
- 该架构采用模块化设计,其中每个组件(粗分类器和细分类器)基于预训练的构建块CNN(如ImageNet-NIN或VGG-16-layer)构建。
- 在联合全局微调前,对各个粗分类器和细分类器分别进行组件级预训练,使用带有粗类别一致性项正则化的多项式逻辑损失。
- 通过条件执行实现,仅激活输入所需的细分类器,从而降低推理时间和内存使用。
- 对高参数层(如fc6、fc7)应用层参数压缩,采用低秩近似方法,参数为(s,k),在精度损失极小的情况下显著减少内存占用。
- 最终的HD-CNN通过在不同层级上概率性地集成预测结果,提升整体准确率,同时保持可扩展性。
实验结果
研究问题
- RQ1通过利用类别层次结构,分层CNN架构能否在大规模视觉识别基准上提升分类准确率?
- RQ2当组件分类器分别预训练后联合微调时,如何有效训练分层深度CNN?
- RQ3粗类别一致性正则化对分层CNN的性能和泛化能力有何影响?
- RQ4参数压缩与条件执行能否使分层CNN在大规模数据集上实现可扩展性,同时保持显著的精度损失?
- RQ5HD-CNN在准确率、推理效率和内存占用方面是否优于标准平坦CNN和集成方法?
主要发现
- 当使用ImageNet-NIN构建块时,与标准CNN基线相比,HD-CNN在CIFAR100上的top-1错误率降低了2.65%。
- 在ImageNet 1000类数据集上,HD-CNN的top-1错误率为36.66%,top-5错误率为15.80%,相比基线ImageNet-NIN模型,top-1错误率降低3.1%。
- 对于VGG-16-layer构建块,HD-CNN相比原始模型将top-1错误率降低1.1%,top-5错误率降低0.74%。
- 参数压缩使基于ImageNet-NIN的HD-CNN内存占用从3508 MB降至1712 MB,top-5错误率仅增加0.14%。
- 采用84个细类别分类器和压缩层的HD-CNN性能优于集成三个基线ImageNet-NIN网络,top-5错误率降低1.31%。
- 细分类器的条件执行降低了计算成本,即使在大幅压缩(如fc6层参数减少29.9倍)的情况下,模型仍保持高准确率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。