QUICK REVIEW

[论文解读] Robust Classification with Convolutional Prototype Learning

Hongming Yang, Xu-Yao Zhang|arXiv (Cornell University)|May 9, 2018

Domain Adaptation and Few-Shot Learning参考文献 28被引用 27

一句话总结

本文提出卷积原型学习（CPL），一种新型深度学习框架，用基于原型的分类方法替代传统softmax层，通过在特征空间中使用欧氏距离进行分类。通过原型损失（PL）联合训练卷积特征与原型，CPL增强了类内紧凑性，提升了对对抗样本、分布外样本及小训练集的鲁棒性，在实现与标准CNN相当或更优准确率的同时，支持有效的类别增量学习与拒绝机制。

ABSTRACT

Convolutional neural networks (CNNs) have been widely used for image classification. Despite its high accuracies, CNN has been shown to be easily fooled by some adversarial examples, indicating that CNN is not robust enough for pattern classification. In this paper, we argue that the lack of robustness for CNN is caused by the softmax layer, which is a totally discriminative model and based on the assumption of closed world (i.e., with a fixed number of categories). To improve the robustness, we propose a novel learning framework called convolutional prototype learning (CPL). The advantage of using prototypes is that it can well handle the open world recognition problem and therefore improve the robustness. Under the framework of CPL, we design multiple classification criteria to train the network. Moreover, a prototype loss (PL) is proposed as a regularization to improve the intra-class compactness of the feature representation, which can be viewed as a generative model based on the Gaussian assumption of different classes. Experiments on several datasets demonstrate that CPL can achieve comparable or even better results than traditional CNN, and from the robustness perspective, CPL shows great advantages for both the rejection and incremental category learning tasks.

研究动机与目标

为解决标准CNN缺乏鲁棒性的问题，特别是其对分布外样本的拒绝能力差以及对对抗样本的敏感性。
克服基于softmax的模型在固定类别集合的封闭世界设定下的局限性。
开发统一框架，支持鲁棒分类与新类别无重训练的增量学习。
通过可学习的基于原型的正则化方法，提升特征表示的类内紧凑性与类间可分性。
通过将原型作为均值建模类别分布为高斯混合，实现开放世界识别的有效建模。

提出的方法

CPL使用CNN主干网络提取特征，将最后一层的softmax替换为基于原型的决策函数，通过在特征空间中最近原型匹配实现样本分类。
引入原型损失（PL）作为正则化项，最小化特征表示与其对应类别原型之间的欧氏距离，促进类内紧凑性。
通过反向传播端到端联合优化CNN特征提取器与原型，实现无需预定义规则的数据驱动原型学习。
基于原型的模型被解释为判别-生成混合模型，其中每个类别被建模为以原型为均值的高斯分布，支持概率推理。
广义CPL（GCPL）框架通过允许直接添加未见类别的新原型，实现增量学习，无需重训练整个网络。
设计多种分类准则与损失函数以有效训练网络，包括DCE损失与原型损失，确保稳定收敛。

实验结果

研究问题

RQ1与标准的基于softmax的CNN相比，基于原型的分类框架是否能提升对对抗样本与分布外样本的鲁棒性？
RQ2通过可学习的原型损失进行原型学习，如何影响特征表示中的类内紧凑性与类间可分性？
RQ3GCPL在不重训练整个模型的前提下，能在多大程度上支持新类别的增量学习？
RQ4在小样本量（SSS）条件下，GCPL的表现如何？此时标准CNN常出现过拟合或失效。
RQ5在复杂、多模态的数据分布中，每个类别使用多个原型是否能提升性能？

主要发现

在CIFAR-10上，GCPL在10个已知类别测试集上达到99.27%的测试准确率，在增量添加新类别后11类测试集上准确率保持在99.20%至99.24%之间，表明其在类别增量学习中表现强劲。
在小样本训练集（如MNIST的5%）下，GCPL保持96.44%的准确率（方差±0.40），而基于softmax的CNN准确率降至73.95%（方差±6.10），显示出对小样本量的显著鲁棒性。
原型损失（PL）显著提升了类内紧凑性，使特征表示更具判别性与鲁棒性，对分布偏移不敏感。
即使每个类别使用多个原型（K=2至5），GCPL性能仍保持稳定（CIFAR-10上准确率为90.37%至90.70%），表明在CNN特征变换后，单个原型通常已足够。
GCPL实现了有效的异常值拒绝：未见类别的样本不会被高概率分配给任何已知类别，而基于softmax的模型则会错误地为未知输入赋予高置信度。
通过高斯混合建模的生成式解释，该框架可与贝叶斯方法集成，提升开放世界场景下的泛化能力与鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。