QUICK REVIEW

[论文解读] Transductive Information Maximization For Few-Shot Learning

Mohamed Amine Boudiaf, Imtiaz Masud Ziko|arXiv (Cornell University)|Aug 25, 2020

Domain Adaptation and Few-Shot Learning参考文献 51被引用 49

一句话总结

TIM 在一个少样本任务中最大化查询特征与标签预测之间的互信息，并结合支持集监督，使用基于快速 ADMM 的求解器进行跨推断，且在不依赖复杂元学习的情况下达到最先进的结果。

ABSTRACT

We introduce Transductive Infomation Maximization (TIM) for few-shot learning. Our method maximizes the mutual information between the query features and their label predictions for a given few-shot task, in conjunction with a supervision loss based on the support set. Furthermore, we propose a new alternating-direction solver for our mutual-information loss, which substantially speeds up transductive-inference convergence over gradient-based optimization, while yielding similar accuracy. TIM inference is modular: it can be used on top of any base-training feature extractor. Following standard transductive few-shot settings, our comprehensive experiments demonstrate that TIM outperforms state-of-the-art methods significantly across various datasets and networks, while used on top of a fixed feature extractor trained with simple cross-entropy on the base classes, without resorting to complex meta-learning schemes. It consistently brings between 2% and 5% improvement in accuracy over the best performing method, not only on all the well-established few-shot benchmarks but also on more challenging scenarios,with domain shifts and larger numbers of classes.

研究动机与目标

动机：在新类别的有标签数据有限的情况下推动少样本学习的需求。
提出一个基于查询特征与标签之间互信息的传递推断目标。
通过交叉熵损失将支持集的监督信息融入。
为 TIM 开发一个快速求解器（交替方向法/ADMM），以加速推理。
在标准的FSL基准和领域迁移场景中展示出显著的经验提升。

提出的方法

将 TIM 损失定义为对支持集的交叉熵减去查询集上的经验互信息项，并加入边际熵正则化以防止退化解。
将 MI 项表达为 - H_hat(Y_Q) + alpha * (1/|Q|) sum_{i in Q} sum_{k} p_{ik} log p_{ik}, where p_{ik} ~ exp(-tau/2 * ||w_k - z_i||^2) and z_i is the L2-normalized embedding.
为查询标签引入一个辅助分配矩阵 q，并将带约束的优化问题表述为近似于 ADMM 风格的更新。
给出两种优化策略：TIM-GD（仅使用梯度更新分类器权重 W）和 TIM-ADM（对 W 和 q 交替更新，带有闭式步骤）。
表明标签边际熵项能提升优化稳定性和运行时间。

实验结果

研究问题

RQ1传导互信息目标是否可以在无需元学习的情况下改善少样本学习？
RQ2加入标签边际熵正则化是否能防止退化解并加速收敛？
RQ3基于梯度的与类似 ADMM 的求解器在 TIM 的准确性和速度上有何比较？
RQ4TIM 对领域迁移和更高类别数（ways）的少样本任务是否鲁棒？
RQ5TIM 是否可以在不同骨干网的固定基础训练特征提取器之上叠加应用？

主要发现

TIM 在 1-shot 和 5-shot 设置下，使用 ResNet-18 主干网络以及在跨推断任务中使用 WRN-28-10，在 mini-ImageNet、tiered-ImageNet 和 CUB 上达到最先进的结果。
TIM-GD 与 TIM-ADM 一直超越之前的传导与自感方法，TIM-ADM 提供更快的推理。
标签边际熵项显著提升准确性（以及优化），并能将跨推断运行时间降低数量级。
在跨推断期间对整个主干网进行微调（如某些前期工作）会降低 TIM 的性能且慢得多。
TIM 在域迁移（如 mini-ImageNet 到 CUB）以及更高的 ways 场景（10-way、20-way）中表现强劲。
基于 ADMM 的求解器（TIM-ADM）使每任务推理时间相比 TIM-GD 大约降低一个数量级，相比早期传导方法降低超过两个数量级。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。