QUICK REVIEW

[论文解读] Discriminative k-shot learning using probabilistic models

Matthias Bauer, Mateo Rojas-Carulla|arXiv (Cornell University)|Jun 1, 2017

Domain Adaptation and Few-Shot Learning参考文献 10被引用 41

一句话总结

本文提出了一种用于k-shot图像分类的概率框架，将来自预训练卷积神经网络（CNN）的深度特征表示与最终层权重的贝叶斯先验相结合，该先验从大规模分类数据集中学得。通过将原始网络的顶层权重视为用于训练概率先验的数据，该方法在miniImageNet上实现了最先进性能（比之前工作高出约6%），并提供了校准良好的不确定性估计，优于依赖元训练（episodic training）的复杂深度学习方法。

ABSTRACT

This paper introduces a probabilistic framework for k-shot image classification. The goal is to generalise from an initial large-scale classification task to a separate task comprising new classes and small numbers of examples. The new approach not only leverages the feature-based representation learned by a neural network from the initial task (representational transfer), but also information about the classes (concept transfer). The concept information is encapsulated in a probabilistic model for the final layer weights of the neural network which acts as a prior for probabilistic k-shot learning. We show that even a simple probabilistic model achieves state-of-the-art on a standard k-shot learning dataset by a large margin. Moreover, it is able to accurately model uncertainty, leading to well calibrated classifiers, and is easily extensible and flexible, unlike many recent approaches to k-shot learning.

研究动机与目标

通过利用从先前见过的类别中学到的特征表示和概念知识，解决少样本图像分类的挑战。
通过在最终层权重上使用概率模型来引入关于类别结构的先验知识，提升k-shot学习中的泛化能力。
改善分类器中不确定性的校准，而这一点在现有k-shot学习方法中常被忽视。
证明当与强大的特征提取器结合时，简单的概率模型可超越复杂的深度学习架构在k-shot学习中的表现。
表明通过贝叶斯先验实现的表征迁移与概念迁移可有效结合，从而提升少样本性能。

提出的方法

该方法使用预训练的深度CNN从输入图像中提取特征，利用大规模分类任务中的表征迁移。
将CNN最终层的Softmax权重建模为随机变量，并使用原始数据集学习这些权重的概率先验。
通过贝叶斯方式利用该先验来正则化k-shot类别新权重的学习，推理过程采用最大后验概率（MAP）或马尔可夫链蒙特卡洛（MCMC）采样。
当使用具有各向同性协方差的高斯先验时，该框架退化为L2正则化逻辑回归的特例。
评估了不同的先验分布，包括高斯分布、拉普拉斯分布和高斯混合模型（GMMs），并通过在训练权重上使用保留对数似然来优化超参数。
使用期望校准误差（ECE）评估校准性能，并在miniImageNet和CIFAR-100上以1-、5-和10-shot设置进行性能评估。

实验结果

研究问题

RQ1仅依靠表征迁移，能否通过最终层权重的简单概率模型进一步提升少样本泛化能力？
RQ2通过贝叶斯先验引入先前学习类别的概念知识，是否能提升k-shot学习中的性能与校准效果？
RQ3该框架的性能与使用复杂架构的最先进元训练方法相比如何？
RQ4使用复杂先验（如GMMs）是否具有优势，还是简单的各向同性高斯分布已足够？
RQ5当与概率先验结合时，特征提取器的质量在多大程度上影响k-shot性能？

主要发现

所提方法在miniImageNet上实现了最先进性能，在1-shot和5-shot学习中比之前工作高出约6个百分点。
使用MAP推理的各向同性高斯先验在准确率、校准性和计算效率之间提供了最佳平衡，优于更复杂的模型（如GMMs和拉普拉斯先验）。
除拉普拉斯和GMM（10, iso）外，所有方法均实现了较低的期望校准误差（ECE），表明不确定性估计具有良好的校准性。
使用MCMC采样进行推理可略微提升校准性，但计算成本显著，因此在实用性上不如MAP推理。
该框架表明，预训练阶段更好的批量分类准确率可带来更好的少样本泛化性能，挑战了“元训练是获得良好性能所必需”的既有观念。
尽管容量更高，但混合模型（如GMMs）并未提升性能，原因在于原始类别数量较少且权重空间维度高，使得拟合复杂模型变得困难。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。