[论文解读] Visual Recognition with Deep Nearest Centroids
本文提出 Deep Nearest Centroids (DNC),一种非参数、基于案例的分类器,使用类别子质心进行视觉识别和分割,相较于传统的参数化 softmax 分类器,在透明度和可迁移性方面有所提升。
We devise deep nearest centroids (DNC), a conceptually elegant yet surprisingly effective network for large-scale visual recognition, by revisiting Nearest Centroids, one of the most classic and simple classifiers. Current deep models learn the classifier in a fully parametric manner, ignoring the latent data structure and lacking simplicity and explainability. DNC instead conducts nonparametric, case-based reasoning; it utilizes sub-centroids of training samples to describe class distributions and clearly explains the classification as the proximity of test data and the class sub-centroids in the feature space. Due to the distance-based nature, the network output dimensionality is flexible, and all the learnable parameters are only for data embedding. That means all the knowledge learnt for ImageNet classification can be completely transferred for pixel recognition learning, under the "pre-training and fine-tuning" paradigm. Apart from its nested simplicity and intuitive decision-making mechanism, DNC can even possess ad-hoc explainability when the sub-centroids are selected as actual training images that humans can view and inspect. Compared with parametric counterparts, DNC performs better on image classification (CIFAR-10, ImageNet) and greatly boots pixel recognition (ADE20K, Cityscapes), with improved transparency and fewer learnable parameters, using various network architectures (ResNet, Swin) and segmentation models (FCN, DeepLabV3, Swin). We feel this work brings fundamental insights into related fields.
研究动机与目标
- 在深度视觉识别中,为参数化 softmax 分类器提供一个简单、可解释的替代方案的动机。
- 通过子质心表示捕捉每个类别内的潜在数据结构。
- 通过基于距离的非参数分类实现对表示学习的直接监督。
- 通过将表示学习与固定的类别特定参数解耦来提高可迁移性。
- 通过将预测与人可查看的子质心(训练样本)联系起来来展示可解释性。
提出的方法
- 定义一个 DNC 分类器,使用基于距离的规则将样本分配到跨所有类别的最近子质心。
- 在特征空间中,通过确定性聚类在每个类别内部学习 K 个子质心来表示每个类别。
- 将聚类问题放宽为运输多面体并用快速的 Sinkhorn 基于算法求解。
- 通过交替进行按类别聚类以发现子质心,以及使用最近子质心进行预测的监督学习进行训练。
- 形成使用最近子质心来计算类别概率的训练损失,从而实现非参数分类。
- 展示与各种骨架网络(如 ResNet、Swin)和分割模型(FCN、DeepLabV3、Swin-UNet)的兼容性。
实验结果
研究问题
- RQ1在大规模视觉识别中,非参数、基于质心的分类器能否达到甚至超过参数化 softmax 的性能?
- RQ2类别子质心是否更好地捕捉类内变化并在跨任务上提供更好的可迁移性?
- RQ3通过到子质心的距离学习表示是否可以提升分割性能和可解释性?
- RQ4高效的基于 Sinkhorn 的聚类是否能够在训练中实现可扩展的子质心估计?
- RQ5将子质心限定在训练样本上是否能在不牺牲准确性的情况下提供临时性可解释性?
主要发现
- 在 §4.1 中,DNC 在从头训练的图像分类任务上优于参数化对手,在 CIFAR-10 上实现 0.23-0.24% 的 top-1 提升,在 ImageNet 上实现 0.24-0.32% 的 top-1 提升。
- 在 §4.2 中,使用 ImageNet 预训练骨干的 DNC 显著提升 ADE20K 和 Cityscapes 的像素级分割表现(分别达到 1.6-2.5% 的 mIoU 和 1.1-1.9% 的 mIoU)。
- 将子质心限制为实际训练图像可获得临时性可解释性,只牺牲 0.12% 的 top-1 准确率(比参数化高 0.17%),见 §4.3。
- 由于表示学习的聚焦,DNC 能实现从源任务(如 ImageNet)到目标任务(如 Cityscapes)的知识完整迁移。
- 该方法在一个协同的基于距离的框架中将类内无监督聚类与有监督表示学习相结合。
- 由于高效的聚类和在线质心估计,DNC 在 ImageNet 上的训练仅带来大约 5% 的轻微放慢。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。