Skip to main content
QUICK REVIEW

[论文解读] Transductive Information Maximization For Few-Shot Learning

Mohamed Amine Boudiaf, Imtiaz Masud Ziko|arXiv (Cornell University)|Aug 25, 2020
Domain Adaptation and Few-Shot Learning参考文献 51被引用 49
一句话总结

TIM 在一个少样本任务中最大化查询特征与标签预测之间的互信息,并结合支持集监督,使用基于快速 ADMM 的求解器进行跨推断,且在不依赖复杂元学习的情况下达到最先进的结果。

ABSTRACT

We introduce Transductive Infomation Maximization (TIM) for few-shot learning. Our method maximizes the mutual information between the query features and their label predictions for a given few-shot task, in conjunction with a supervision loss based on the support set. Furthermore, we propose a new alternating-direction solver for our mutual-information loss, which substantially speeds up transductive-inference convergence over gradient-based optimization, while yielding similar accuracy. TIM inference is modular: it can be used on top of any base-training feature extractor. Following standard transductive few-shot settings, our comprehensive experiments demonstrate that TIM outperforms state-of-the-art methods significantly across various datasets and networks, while used on top of a fixed feature extractor trained with simple cross-entropy on the base classes, without resorting to complex meta-learning schemes. It consistently brings between 2% and 5% improvement in accuracy over the best performing method, not only on all the well-established few-shot benchmarks but also on more challenging scenarios,with domain shifts and larger numbers of classes.

研究动机与目标

  • 动机:在新类别的有标签数据有限的情况下推动少样本学习的需求。
  • 提出一个基于查询特征与标签之间互信息的传递推断目标。
  • 通过交叉熵损失将支持集的监督信息融入。
  • 为 TIM 开发一个快速求解器(交替方向法/ADMM),以加速推理。
  • 在标准的FSL基准和领域迁移场景中展示出显著的经验提升。

提出的方法

  • 将 TIM 损失定义为对支持集的交叉熵减去查询集上的经验互信息项,并加入边际熵正则化以防止退化解。
  • 将 MI 项表达为 - H_hat(Y_Q) + alpha * (1/|Q|) sum_{i in Q} sum_{k} p_{ik} log p_{ik}, where p_{ik} ~ exp(-tau/2 * ||w_k - z_i||^2) and z_i is the L2-normalized embedding.
  • 为查询标签引入一个辅助分配矩阵 q,并将带约束的优化问题表述为近似于 ADMM 风格的更新。
  • 给出两种优化策略:TIM-GD(仅使用梯度更新分类器权重 W)和 TIM-ADM(对 W 和 q 交替更新,带有闭式步骤)。
  • 表明标签边际熵项能提升优化稳定性和运行时间。

实验结果

研究问题

  • RQ1传导互信息目标是否可以在无需元学习的情况下改善少样本学习?
  • RQ2加入标签边际熵正则化是否能防止退化解并加速收敛?
  • RQ3基于梯度的与类似 ADMM 的求解器在 TIM 的准确性和速度上有何比较?
  • RQ4TIM 对领域迁移和更高类别数(ways)的少样本任务是否鲁棒?
  • RQ5TIM 是否可以在不同骨干网的固定基础训练特征提取器之上叠加应用?

主要发现

  • TIM 在 1-shot 和 5-shot 设置下,使用 ResNet-18 主干网络以及在跨推断任务中使用 WRN-28-10,在 mini-ImageNet、tiered-ImageNet 和 CUB 上达到最先进的结果。
  • TIM-GD 与 TIM-ADM 一直超越之前的传导与自感方法,TIM-ADM 提供更快的推理。
  • 标签边际熵项显著提升准确性(以及优化),并能将跨推断运行时间降低数量级。
  • 在跨推断期间对整个主干网进行微调(如某些前期工作)会降低 TIM 的性能且慢得多。
  • TIM 在域迁移(如 mini-ImageNet 到 CUB)以及更高的 ways 场景(10-way、20-way)中表现强劲。
  • 基于 ADMM 的求解器(TIM-ADM)使每任务推理时间相比 TIM-GD 大约降低一个数量级,相比早期传导方法降低超过两个数量级。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。