QUICK REVIEW

[论文解读] Matching Networks for One Shot Learning

Oriol Vinyals, Charles Blundell|arXiv (Cornell University)|Jun 13, 2016

Multimodal Machine Learning Applications参考文献 25被引用 942

一句话总结

Matching Networks 通过将神经网络与外部记忆和注意力相结合，实现快速的一-shot 学习，允许在不进行微调的情况下对新类别进行预测。它们在 Omniglot 和 Mini/ImageNet 任务上达到最先进的一-shot 准确率，并扩展到一个 one-shot 语言建模任务。

ABSTRACT

Learning from a few examples remains a key challenge in machine learning. Despite recent advances in important domains such as vision and language, the standard supervised deep learning paradigm does not offer a satisfactory solution for learning new concepts rapidly from little data. In this work, we employ ideas from metric learning based on deep neural features and from recent advances that augment neural networks with external memories. Our framework learns a network that maps a small labelled support set and an unlabelled example to its label, obviating the need for fine-tuning to adapt to new class types. We then define one-shot learning problems on vision (using Omniglot, ImageNet) and language tasks. Our algorithm improves one-shot accuracy on ImageNet from 87.6% to 93.2% and from 88.0% to 93.8% on Omniglot compared to competing approaches. We also demonstrate the usefulness of the same model on language modeling by introducing a one-shot task on the Penn Treebank.

研究动机与目标

激发在新类别只有少量带标签示例的 one-shot 学习 setting。
提出一种神经架构，使用一个小的带标签支持集来对未观测的测试样本进行分类，无需微调。
定义训练程序和基准，用于在视觉和语言任务上评估 one-shot 学习。
展示在 Omniglot、ImageNet和 Penn Treebank 语言任务上的 state-of-the-art one-shot 性能。

提出的方法

介绍 Matching Networks，将支持集 S 映射到供测试输入的分类器 c_S，通过 P(y|x,S)。
使用注意力机制 a(x̂,x_i)，基于嵌入表示 f(x̂) 和 g(x_i) 的余弦相似性。
通过使用双向 LSTM 的 Fully Conditional Embedding，对完整的支持集 S 条件化 x_i，使嵌入具上下文感知（g(x_i,S)）。
使用 attLSTM 对集合编码的支持来计算 f(x̂,S)，实现对记忆的多步读取。
使用情节式元学习进行训练，其中每个 episode 采样一个标签集 L 及相应的支持 S 和批 B，在给定 S 的条件下对 B 进行预测优化（对新类别不进行微调）。
探索 Full Context Embeddings (FCE)，通过将嵌入条件化到整个支持集来提升性能。

实验结果

研究问题

RQ1神经模型是否能利用一个小规模带标签的支持集，在不进行微调的情况下对未见类别进行分类？
RQ2如何将注意力和外部记忆机制整合，在视觉和语言模态上执行 one-shot 学习？
RQ3与传统有监督训练相比，基于 episode 的元学习训练是否提高了对新标签集合的泛化？
RQ4Matching Networks 在像 ImageNet 这样的大规模数据集以及语言任务上的极限是什么？

主要发现

Matching Networks 在 1-shot Omniglot 评估中实现 93.8% 的 5-way 准确率（以及在某些设置中，使用余弦相似性达到 98.1% 的 1-shot 5-way）。
在 mini ImageNet 上，Matching Networks 在余弦设置下达到基线之上 41.2%（1-shot, 5-way）和 56.2%（5-shot, 5-way）准确率，并通过 FCE 进一步提升。
在完整 ImageNet 5-way 1-shot 任务中，FCE 的 Matching Networks 在 L_rand 上达到 93.2% ，在 ≠L_rand 上达到 97.0%（在某些切分下，狗变体为 58.8%/96.4%）。
在 Penn Treebank 语言 one-shot 任务中，简单的 Matching Networks 编码在 k=1,2,3 时分别达到 32.4%、36.1%、38.2% 的准确率（尚未达到 LSTM-LM oracle）。
FCE 在若干图像基准测试中，对非 FCE 变体提供了一致的微小提升（大约 2 个百分点）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。