[论文解读] Deep Meta-Learning: Learning to Learn in the Concept Space
本文提出了深度元学习(DEML),通过共同训练概念生成器、元学习者和概念判别器,在概念空间中学习元学习,以提升在多个元学习者上的少样本图像识别性能。
Few-shot learning remains challenging for meta-learning that learns a learning algorithm (meta-learner) from many related tasks. In this work, we argue that this is due to the lack of a good representation for meta-learning, and propose deep meta-learning to integrate the representation power of deep learning into meta-learning. The framework is composed of three modules, a concept generator, a meta-learner, and a concept discriminator, which are learned jointly. The concept generator, e.g. a deep residual net, extracts a representation for each instance that captures its high-level concept, on which the meta-learner performs few-shot learning, and the concept discriminator recognizes the concepts. By learning to learn in the concept space rather than in the complicated instance space, deep meta-learning can substantially improve vanilla meta-learning, which is demonstrated on various few-shot image recognition problems. For example, on 5-way-1-shot image recognition on CIFAR-100 and CUB-200, it improves Matching Nets from 50.53% and 56.53% to 58.18% and 63.47%, improves MAML from 49.28% and 50.45% to 56.65% and 64.63%, and improves Meta-SGD from 53.83% and 53.34% to 61.62% and 66.95%, respectively.
研究动机与目标
- 说明为什么在实例空间的元学习在少样本任务中存在挑战并提出在概念空间中学习的想法。
- 引入一个三模块框架(概念生成器、元学习者、概念判别器)并端到端训练。
- 在多个数据集和多种元学习者上演示改进的少样本表现。
提出的方法
- 定义三模块的 DEML 框架:G(概念生成器)、M(元学习者)、D(概念判别器)。
- 在任务和外部数据上联合优化元学习损失和概念判别损失。
- 给出使用匹配网络、MAML 和 Meta-SGD 作为元学习者的实现。
- 用 ResNet-50 作为 G、用一个小网络作为 D;调整 M,以在概念空间中执行少样本学习。
- 给出将 L_T(概念空间中的元学习损失)和 L_(x,y)(概念判别损失)结合的联合目标。
- 展示在 MiniImagenet、Caltech-256、CIFAR-100、CUB-200 的 5-类 1-shot 和 5-类 5-shot 设置中的经验收益。
实验结果
研究问题
- RQ1通过概念生成器在概念空间学习能否提高相对于原始实例空间元学习的少样本元学习性能?
- RQ2联合训练与概念判别器是否在外部知识与任务无关的元学习之间取得平衡,从而获得更好的表征?
- RQ3DEML 增强的元学习者(匹配网络、MAML、Meta-SGD)在标准少样本基准上与它们的原始对照相比有何差异?
- RQ4提高是否来自方法本身,而不仅仅是更深的网络或更大的数据集?
主要发现
- DEML 对三种基线学习者(匹配网络、MAML、Meta-SGD)均表现出相对于原始元学习的显著改进。
- 在 5-way-1-shot 和 5-way-5-shot 任务上,DEML+Meta-SGD 在 MiniImagenet 上达到 58.49%/71.28%,在 Caltech-256 上达到 62.25%/79.52%,在 CIFAR-100 上达到 61.62%/77.94%,在 CUB-200 上达到 66.95%/77.11%,显著优于原始方法。
- DEML+Matching Nets 在所有数据集上都超过原始 Matching Nets 的表现(例如 MiniImagenet 在 5-way-1-shot 时为 55.84% 而非 43.56%)。
- DEML+MAML 相对于原始 MAML 有显著改进(例如 MiniImagenet 在 5-way-1-shot 时为 53.71% 而非 48.70%)。
- DEML 的提升不仅来自简单扩大网络或数据集规模,而是来自于在概念空间学习的收益,而非仅靠更深的结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。