Skip to main content
QUICK REVIEW

[论文解读] Meta-Learned Confidence for Few-shot Learning

Seong Min Kye, Haebeom Lee|arXiv (Cornell University)|Feb 27, 2020
Domain Adaptation and Few-Shot Learning参考文献 50被引用 29
一句话总结

本文提出元置信度迁移(Meta-Confidence Transduction, MCT),一种元学习的置信度机制,通过在归纳推理过程中为未标记查询样本分配可靠且输入自适应的置信度分数,从而提升少样本学习性能。通过在多种模型和数据扰动下元学习距离度量,并在不同扰动和嵌入维度间强制预测一致性,MCT在四个少样本基准数据集上达到最先进性能,并显著提升半监督少样本学习的准确率。

ABSTRACT

Transductive inference is an effective means of tackling the data deficiency problem in few-shot learning settings. A popular transductive inference technique for few-shot metric-based approaches, is to update the prototype of each class with the mean of the most confident query examples, or confidence-weighted average of all the query samples. However, a caveat here is that the model confidence may be unreliable, which may lead to incorrect predictions. To tackle this issue, we propose to meta-learn the confidence for each query sample, to assign optimal weights to unlabeled queries such that they improve the model's transductive inference performance on unseen tasks. We achieve this by meta-learning an input-adaptive distance metric over a task distribution under various model and data perturbations, which will enforce consistency on the model predictions under diverse uncertainties for unseen tasks. Moreover, we additionally suggest a regularization which explicitly enforces the consistency on the predictions across the different dimensions of a high-dimensional embedding vector. We validate our few-shot learning model with meta-learned confidence on four benchmark datasets, on which it largely outperforms strong recent baselines and obtains new state-of-the-art results. Further application on semi-supervised few-shot learning tasks also yields significant performance improvements over the baselines. The source code of our algorithm is available at https://github.com/seongmin-kye/MCT.

研究动机与目标

  • 为解决归纳少样本学习中模型置信度不可靠的问题,其中错误的置信度会降低性能。
  • 通过学习输入自适应的置信度分数,优化利用未标记查询数据的原型更新,从而提升归纳推理性能。
  • 通过在多种模型和数据扰动下进行元学习,模拟未见任务中的不确定性,提升置信度估计的可靠性。
  • 通过在不同扰动和嵌入维度间强制预测一致性,提升模型的鲁棒性和泛化能力。
  • 在归纳和半监督少样本学习基准上验证该方法,实现最先进结果。

提出的方法

  • 元学习输入自适应距离度量的长度尺度参数,实现对查询样本的实例特定置信度评分。
  • 在元训练过程中应用模型扰动(如随机残差块丢弃)和数据扰动(如RandAugment、CutOut),以模拟未见任务中的不确定性。
  • 在测试时通过多次扰动前向传播的置信度分数集成平均,提升鲁棒性。
  • 通过在不同增强下对齐支持集和查询集的嵌入分布,强制支持集与查询集之间的预测一致性。
  • 引入逐维一致性正则化,鼓励在高维嵌入特征间实现一致的预测。
  • 通过联合损失函数联合训练分类、原型更新和一致性目标,实现端到端优化。

实验结果

研究问题

  • RQ1元学习的、输入自适应的置信度分数能否提升少样本学习中的归纳推理性能?
  • RQ2元学习过程中使用的模型和数据扰动在未见任务上的置信度估计可靠性方面有何影响?
  • RQ3在不同扰动和嵌入维度间强制预测一致性,能在多大程度上提升模型的鲁棒性和准确率?
  • RQ4所提方法是否能泛化到半监督少样本学习?与现有基线相比表现如何?
  • RQ5各组件(如元学习度量、扰动、一致性正则化)对整体性能的贡献分别是什么?

主要发现

  • MCT 在四个少样本学习基准上达到最先进性能,显著优于强基线模型。
  • 在 miniImageNet 上,MCT 在 1-shot 时达到 65.34% 准确率,5-shot 时达到 82.15%,较实例级度量基线高出 8.89 个百分点。
  • 在支持集使用弱增强、查询集使用强增强(w/s 对)时性能最佳,表明多样化查询表示具有优势。
  • 移除全局平均池化(GAP)并采用密集分类可提升性能,证明保留空间特征信息的有效性。
  • 消融实验确认,元学习置信度和基于扰动的不确定性建模对可靠置信度估计均至关重要。
  • 在半监督少样本学习中,MCT 显著优于基线模型,展现出超越归纳推理的强泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。