[论文解读] Transductive Information Maximization For Few-Shot Learning
TIM 在一个少样本任务中最大化查询特征与标签预测之间的互信息,并结合支持集监督,使用基于快速 ADMM 的求解器进行跨推断,且在不依赖复杂元学习的情况下达到最先进的结果。
We introduce Transductive Infomation Maximization (TIM) for few-shot learning. Our method maximizes the mutual information between the query features and their label predictions for a given few-shot task, in conjunction with a supervision loss based on the support set. Furthermore, we propose a new alternating-direction solver for our mutual-information loss, which substantially speeds up transductive-inference convergence over gradient-based optimization, while yielding similar accuracy. TIM inference is modular: it can be used on top of any base-training feature extractor. Following standard transductive few-shot settings, our comprehensive experiments demonstrate that TIM outperforms state-of-the-art methods significantly across various datasets and networks, while used on top of a fixed feature extractor trained with simple cross-entropy on the base classes, without resorting to complex meta-learning schemes. It consistently brings between 2% and 5% improvement in accuracy over the best performing method, not only on all the well-established few-shot benchmarks but also on more challenging scenarios,with domain shifts and larger numbers of classes.
研究动机与目标
- 动机:在新类别的有标签数据有限的情况下推动少样本学习的需求。
- 提出一个基于查询特征与标签之间互信息的传递推断目标。
- 通过交叉熵损失将支持集的监督信息融入。
- 为 TIM 开发一个快速求解器(交替方向法/ADMM),以加速推理。
- 在标准的FSL基准和领域迁移场景中展示出显著的经验提升。
提出的方法
- 将 TIM 损失定义为对支持集的交叉熵减去查询集上的经验互信息项,并加入边际熵正则化以防止退化解。
- 将 MI 项表达为 - H_hat(Y_Q) + alpha * (1/|Q|) sum_{i in Q} sum_{k} p_{ik} log p_{ik}, where p_{ik} ~ exp(-tau/2 * ||w_k - z_i||^2) and z_i is the L2-normalized embedding.
- 为查询标签引入一个辅助分配矩阵 q,并将带约束的优化问题表述为近似于 ADMM 风格的更新。
- 给出两种优化策略:TIM-GD(仅使用梯度更新分类器权重 W)和 TIM-ADM(对 W 和 q 交替更新,带有闭式步骤)。
- 表明标签边际熵项能提升优化稳定性和运行时间。
实验结果
研究问题
- RQ1传导互信息目标是否可以在无需元学习的情况下改善少样本学习?
- RQ2加入标签边际熵正则化是否能防止退化解并加速收敛?
- RQ3基于梯度的与类似 ADMM 的求解器在 TIM 的准确性和速度上有何比较?
- RQ4TIM 对领域迁移和更高类别数(ways)的少样本任务是否鲁棒?
- RQ5TIM 是否可以在不同骨干网的固定基础训练特征提取器之上叠加应用?
主要发现
- TIM 在 1-shot 和 5-shot 设置下,使用 ResNet-18 主干网络以及在跨推断任务中使用 WRN-28-10,在 mini-ImageNet、tiered-ImageNet 和 CUB 上达到最先进的结果。
- TIM-GD 与 TIM-ADM 一直超越之前的传导与自感方法,TIM-ADM 提供更快的推理。
- 标签边际熵项显著提升准确性(以及优化),并能将跨推断运行时间降低数量级。
- 在跨推断期间对整个主干网进行微调(如某些前期工作)会降低 TIM 的性能且慢得多。
- TIM 在域迁移(如 mini-ImageNet 到 CUB)以及更高的 ways 场景(10-way、20-way)中表现强劲。
- 基于 ADMM 的求解器(TIM-ADM)使每任务推理时间相比 TIM-GD 大约降低一个数量级,相比早期传导方法降低超过两个数量级。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。