[论文解读] Attentive Recurrent Comparators
本文提出 Attentive Recurrent Comparators (ARCs),通过对成对图像进行学习注意力与递归的重复观察,形成动态表示,在单次学习 Omniglot 分类中达到状态最优并在相似性学习任务上取得显著结果。
Rapid learning requires flexible representations to quickly adopt to new evidence. We develop a novel class of models called Attentive Recurrent Comparators (ARCs) that form representations of objects by cycling through them and making observations. Using the representations extracted by ARCs, we develop a way of approximating a extit{dynamic representation space} and use it for one-shot learning. In the task of one-shot classification on the Omniglot dataset, we achieve the state of the art performance with an error rate of 1.5\%. This represents the first super-human result achieved for this task with a generic model that uses only pixel information.
研究动机与目标
- 通过随新证据演变的动态表示来驱动快速学习。
- 提出一个可微的 ARC 模型,通过在两个对象之间交替进行注意力来比较它们。
- 证明 ARCs(有或无卷积)在相似性任务上能够匹配或超越卷积网络。
- 表明 ARCs 能够为单次分类提供一个高性能的惰性相对表示空间。
提出的方法
- 引入一个由 RNN 控制器和可微分注意机制组成的 ARC,在时间步之间在两张图像之间交替。
- 从前一时刻的 RNN 状态计算注意力窥视参数;对当前图像的一个区域进行注意以形成 G_t;更新 RNN 状态 h_t。
- 可选地通过对卷积特征图应用注意来引入 CNN 特征(ConvARC)。
- 在单次学习中,构建一个以测试样本为条件的相对表示空间;使用带有 Bi-LSTM 融合和 softmax 评分的分层两级比较,类似于 Matching Networks。
- 端到端训练,以优化在 Omniglot 和 CASIA WebFace 等任务上的相似性或分类目标。
实验结果
研究问题
- RQ1ARCs 能否形成有效的动态、上下文条件化表示以用于视觉相似性任务?
- RQ2带有或不含卷积特征的 ARCs 是否在验证任务上达到竞争性或优越于 Siamese 网络的表现?
- RQ3一个以测试样本为条件的惰性相对表示空间是否能够支持状态最优的单次分类?
- RQ4两输入之间的迭代注意与并行注意或 Siamese 风格融合在性能与效率上有何差异?
主要发现
| 模型 | 测试集准确率 |
|---|---|
| 孪生网络 | 60.52% |
| 深度孪生网络(Koch 等) | 93.42% |
| 孪生 ResNet(d=24, w=1) | 93.47% |
| 孪生 ResNet(d=30, w=2) | 94.61% |
| 孪生 ResNet(d=60, w=4) | 93.57% |
| ARC | 93.31% |
| ConvARC | 96.10% |
| 跨字母 - 4: Naive ARC | 90.30% |
| 跨字母 - 4: Naive ConvARC | 96.21% |
| 跨字母 - 4: 完整上下文 ConvARC | 97.5% |
- 基于 ARC 的相似性学习在验证任务上匹配或超越强基线,并在单次 Omniglot 任务上达到最先进的性能。
- 一个不含卷积的简单 ARC 就 Omniglot 验证达到 AlexNet 级别的性能,若使用卷积(ConvARC),则超过 Wide ResNet Siamese 基线。
- ConvARC 在跨字母 Omniglot 验证上达到 96.10%,在同字母内单次学习中达到 97.5%,超过若干先前方法。
- 在 CASIA WebFace 验证中,ConvARC (81.73%) 超越了 CNN 基线(79.48%)。
- 单次 Omniglot 结果:Naive ARC 90.30%,Naive ConvARC 96.21%,Full Context ConvARC 97.5%(跨字母;Across Alphabets); Within Alphabets: Naive ARC 91.75%,Naive ConvARC 97.75%,Full Context ConvARC 98.5%。
- 在 miniImageNet 5 类 1-shot 上,Naive ConvARC 得分 49.14%,而 Full Context ConvARC 达到更高的分数;注:表格对 Naive ConvARC 给出 49.14%,Full Context ConvARC 的数值在上下文中应被视为更高。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。