QUICK REVIEW

[论文解读] A Baseline for Few-Shot Image Classification

Guneet S. Dhillon, Pratik Chaudhari|arXiv (Cornell University)|Sep 6, 2019

Domain Adaptation and Few-Shot Learning参考文献 49被引用 24

一句话总结

本文提出了一种用于少样本图像分类的简单归纳微调基线方法，在使用相同超参数配置的情况下，其在 Mini-ImageNet、Tiered-ImageNet、CIFAR-FS 和 FC-100 上的表现优于当前最先进方法。该方法在支持集和查询集上均采用归纳适应策略，结合标准交叉熵损失，表明这种基础方法即可实现更高的准确率，从而对当前基准的有效性提出质疑，并促使对少样本学习进展的重新评估。

ABSTRACT

Fine-tuning a deep network trained with the standard cross-entropy loss is a strong baseline for few-shot learning. When fine-tuned transductively, this outperforms the current state-of-the-art on standard datasets such as Mini-ImageNet, Tiered-ImageNet, CIFAR-FS and FC-100 with the same hyper-parameters. The simplicity of this approach enables us to demonstrate the first few-shot learning results on the ImageNet-21k dataset. We find that using a large number of meta-training classes results in high few-shot accuracies even for a large number of few-shot classes. We do not advocate our approach as the solution for few-shot learning, but simply use the results to highlight limitations of current benchmarks and few-shot protocols. We perform extensive studies on benchmark datasets to propose a metric that quantifies the "hardness" of a few-shot episode. This metric can be used to report the performance of few-shot algorithms in a more systematic way.

研究动机与目标

建立一种简单且系统化的少样本图像分类基线，无需针对特定协议调整超参数或修改网络结构。
通过展示一种基础微调方法超越复杂最先进方法，挑战当前少样本学习基准的有效性。
提出一种新度量方法，量化少样本任务的“难度”，捕捉在不同类别数和样本数下的分类难度。
通过提出标准化基线和系统化的报告框架，实现更公平的基准测试。
首次报告在大规模 ImageNet-21k 数据集上的少样本学习结果，揭示现有方法在扩展性方面面临的挑战。

提出的方法

在元训练数据集上使用标准交叉熵损失预训练深层网络。
在少样本任务上使用归纳学习对预训练模型进行微调，其中支持集和查询集均用于适应过程。
使用一种改进的交叉熵损失进行优化，同时融合支持集和查询集样本，其中仅在微调阶段使用查询集标签进行监督。
将难度度量定义为预测置信度的期望对数似然比，公式为 $ E_{(x,y) otin ext{support}} \left[ \log \frac{1 - p(y|x)}{p(y|x)} \right] $，以量化任务难度。
在所有少样本协议（如1-way、5-way、1-shot、5-shot）中使用相同的主干网络和超参数，以确保比较的一致性与公平性。
在 Mini-ImageNet、Tiered-ImageNet、CIFAR-FS、FC-100 等标准基准上报告结果，并首次报告在 ImageNet-21k 上的少样本学习结果。

实验结果

研究问题

RQ1一种简单的归纳微调基线是否能在多个基准和协议上超越当前最先进少样本学习方法？
RQ2该基线的性能如何随元训练类别数量和少样本任务特征的变化而变化？
RQ3是否可以使用单一、固定的超参数配置在不同少样本协议（如1-shot与5-shot、5-way与10-way）之间实现泛化？
RQ4哪些度量方法能够系统性地量化少样本任务的难度？这些度量与模型性能的相关性如何？
RQ5该基线在包含稀有类和长尾分布的大型数据集（如 ImageNet-21k）上的表现如何？

主要发现

在标准少样本协议下，使用固定超参数的归纳微调方法在 Mini-ImageNet、Tiered-ImageNet、CIFAR-FS 和 FC-100 上均优于所有最先进方法。
该基线首次实现了在包含 21,814 个类别和 1420 万张图像的 ImageNet-21k 数据集上的少样本学习结果。
元训练类别多样性越高，少样本泛化能力越强，即使少样本类别数量众多也是如此。
所提出的难度度量能有效捕捉任务难度，并与模型性能显著相关，尤其在区分不同类别数和样本数带来的挑战方面表现突出。
少样本准确率在不同任务间的方差显著，表明报告的平均准确率可能具有误导性，当前领域进展可能被高估。
该基线的优越表现表明，当前基准和评估协议可能更偏向于利用特定设计选择的方法，而非真正衡量泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。