[论文解读] Adaptive Posterior Learning: few-shot learning with a surprise-based memory module
APL 是一种少样本学习方法,它仅在外部内存中存储最让人惊讶的观测,并使用关系解码器来推断后验,具有与更小的内存占用相竞争的准确性,并且可扩展到成千上万的类别。
The ability to generalize quickly from few observations is crucial for intelligent systems. In this paper we introduce APL, an algorithm that approximates probability distributions by remembering the most surprising observations it has encountered. These past observations are recalled from an external memory module and processed by a decoder network that can combine information from different memory slots to generalize beyond direct recall. We show this algorithm can perform as well as state of the art baselines on few-shot classification benchmarks with a smaller memory footprint. In addition, its memory compression allows it to scale to thousands of unknown labels. Finally, we introduce a meta-learning reasoning task which is more challenging than direct classification. In this setting, APL is able to generalize with fewer than one example per class via deductive reasoning.
研究动机与目标
- 通过使用存储的过去经验来近似后验分布来启用少样本学习。
- 通过仅将高度惊讶的示例写入内存来最小化内存使用。
- 将外部内存与工作内存和关系解码器结合以实现可扩展的推理。
- 训练以在线方式近似后验更新,而不对整个序列进行反向传播。
提出的方法
- 编码器为每个输入生成一个表示。
- 外部内存存储选定的(embedding, label)对,写入由基于惊讶的机制控制。
- 通过k近邻查询内存以检索相关的历史观测。
- 解码器(关系自注意、关系工作记忆,或 LSTM)使用查询嵌入和内存邻居来产生类别对数。
- 内存写入使用惊讶度 S = -log(y_t); 当 S > sigma 时写入,其中 sigma ~ -log(N) 对于 N 个类别。
- 在每个时间步的训练更新最小化交叉熵损失,而不对整个序列进行反向传播;情节数据推动在线适应。
实验结果
研究问题
- RQ1APL 能否在每段情节中使用最小内存和在线更新来近似后验更新?
- RQ2基于惊讶的内存写入如何影响少样本任务中的内存效率和准确性?
- RQ3关系解码架构是否能够对被回忆的记忆进行有效的非平凡推理?
- RQ4APL 在真实数据集上扩展到大量类别(数千个)时的表现如何?
- RQ5APL 是否能推广到超出标准分类的元学习风格推理任务?
主要发现
- APL 在少样本分类上取得与基线相当的准确性,同时内存占用更小。
- 内存控制器仅写入高度惊讶的观测,导致内存使用稀疏且与任务相关。
- 外部内存加关系解码器实现可扩展的推理,并支持对检索项的全对全注意力。
- APL 使用预训练编码器,在 ImageNet 上对 20/100/1000 任务的 top-1 准确率高,扩展到数千个类别。
- 在专门的数字类比推理任务上,APL 在某些设置下少于每个类别一个示例就实现了强泛化,展示了类似演绎推理的能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。