[论文解读] Free Lunch for Few-shot Learning: Distribution Calibration
论文提出了一种简单的、无参数的分布校准策略,将基类统计信息转移到特征空间中的少样本新类别,使采样特征能够改善分类器训练。用这些校准特征训练的逻辑回归在多个数据集上达到最新的结果。
Learning from a limited number of samples is challenging since the learned model can easily become overfitted based on the biased distribution formed by only a few training examples. In this paper, we calibrate the distribution of these few-sample classes by transferring statistics from the classes with sufficient examples, then an adequate number of examples can be sampled from the calibrated distribution to expand the inputs to the classifier. We assume every dimension in the feature representation follows a Gaussian distribution so that the mean and the variance of the distribution can borrow from that of similar classes whose statistics are better estimated with an adequate number of samples. Our method can be built on top of off-the-shelf pretrained feature extractors and classification models without extra parameters. We show that a simple logistic regression classifier trained using the features sampled from our calibrated distribution can outperform the state-of-the-art accuracy on two datasets (~5% improvement on miniImageNet compared to the next best). The visualization of these generated features demonstrates that our calibrated distribution is an accurate estimation.
研究动机与目标
- 通过使用来自大量样本基类的统计信息,对特征空间分布进行校准,以应对少样本学习中的过拟合和分布偏差。
- 提出基于高斯特征模型的迁移机制,用于估计新类别的校准均值和协方差。
- 利用 Tukey 的幂变换将特征高斯化,并在不增加额外可学习参数的情况下生成增强样本。
- 证明在经过校准的样本上训练的简单逻辑回归(或线性分类器)可超越现有最先进方法。
- 展示方法在多数据集和骨干网络上的鲁棒性,无需额外参数学习。
提出的方法
- 假设每个特征维在每个类别下服从高斯分布,并基于类别相似性将基类统计转移到新类别。
- 在校准前对特征应用 Tukey 的幂变换以进行高斯化。
- 对于每个支撑特征,按均值距离挑选最近的 k 个基类,并计算该样本的校准均值和协方差。
- 从最近基类统计中为每个新类别构造一个校准分布集合,并从这些分布中采样额外特征。
- 在原始(经变换的)支撑特征和生成特征上共同训练分类器,使用交叉熵损失;不引入新的可学习参数。
实验结果
研究问题
- RQ1分布校准是否可以在不学习额外参数的情况下,通过缓解分布偏差来改善少样本学习?
- RQ2在特征空间高斯假设下,将基类统计信息迁移到新类别的效果如何?
- RQ3Tukey 转换的影响以及生成样本数量对少样本精度的影响?
- RQ4在不同数据集和骨干网络上,该方法的性能如何?
- RQ5当在经过校准、增强后的特征上训练时,简单线性分类器是否已经足够?
主要发现
- 在 mini ImageNet、tiered ImageNet 与 CUB 上,用简单分类器和经过校准的特征实现了 5-way 1-shot 与 5-way 5-shot 的更高准确率。
- 校准后的分布产生的特征更好地覆盖测试分布,如可视化与准确率提升所示。
- 在经过校准、增强的特征上训练的逻辑回归或 SVM 超越了若干最先进方法,同时不需要额外的可学习参数。
- Tukey 转换(λ 约为 0.5)结合生成的特征可实现最佳消融效果。
- 校准对骨干网络具有鲁棒性,可叠加在各种基线之上提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。