Skip to main content
QUICK REVIEW

[论文解读] Active One-shot Learning

Mark P. Woodward, Chelsea Finn|arXiv (Cornell University)|Feb 21, 2017
Machine Learning and Algorithms参考文献 18被引用 66
一句话总结

本论文学习一个主动学习者,使用强化学习在一系列图像上决定是标注还是请求真实标签,从而在可控标注成本的前提下实现类似一次性任务的性能。

ABSTRACT

Recent advances in one-shot learning have produced models that can learn from a handful of labeled examples, for passive classification and regression tasks. This paper combines reinforcement learning with one-shot learning, allowing the model to decide, during classification, which examples are worth labeling. We introduce a classification task in which a stream of images are presented and, on each time step, a decision must be made to either predict a label or pay to receive the correct label. We present a recurrent neural network based action-value function, and demonstrate its ability to learn how and when to request labels. Through the choice of reward function, the model can achieve a higher prediction accuracy than a similar model on a purely supervised task, or trade prediction accuracy for fewer label requests.

研究动机与目标

  • 通过让模型在获取标签时自行选择来降低学习中的监督成本的动机。
  • 开发一个元学习框架,将一次性学习与主动标注决策相结合。
  • 训练一个深度循环模型,使其作为标注策略,使用强化学习来行动。

提出的方法

  • 将任务形式化为来自 Omniglot 的图像序列的在线主动学习问题。
  • 用基于 LSTM 的网络表示动作价值函数 Q(o_t, a_t)。
  • 使用单热编码的动作输出,动作要么是预测标签,要么是请求真实标签。
  • 为正确预测、错误预测和请求标签定义奖励以塑造策略。
  • 使用强化学习进行训练以最大化累计奖励,且不使用单独的目标网络。
  • 与有监督学习基线进行比较,并分析准确性与标注成本之间的权衡。

实验结果

研究问题

  • RQ1在在线一次性学习情景中,深度循环模型能否学习何时请求标签?
  • RQ2强化学习是否能够实现对不确定性有感知的合理标注决策,在准确性与标注成本之间取得平衡?
  • RQ3奖励设置如何影响预测准确性与标签请求数量之间的权衡?
  • RQ4模型是否表现出超出固定标签计划的、不确定性估计的行为?

主要发现

模型准确率 (%)请求标签的比例 (%)
Supervised91.0100.0
RL75.97.2
RL Prediction81.87.2
RL Prediction (R_inc=-5)86.431.8
RL Prediction (R_inc=-10)89.345.6
RL Prediction (R_inc=-20)92.860.6
  • 该模型学习在一个类别的早期实例请求更多标签、在后期实例请求更少,从而随着时间推移以更少标签实现更高的准确性。
  • 在适当的奖励下,RL 的预测准确性高于纯监督基线,同时使用的标签数量显著更少(例如 RL 请求 7.2% 对比监督的 100%)。
  • 该模型展现出对不确定性的感知行为,在遇到潜在新类别或分布变化时调整标签请求。
  • 通过改变对错误预测的惩罚 (R_inc),该方法能够在准确性与标注成本之间进行权衡,产生一系列性能。
  • 在同一架构下,基于 RL 的方法通过利用请求标签的行动,能够超过 Omniglot 上的监督学习。
  • 在测试情景中,模型对类别切换和序列长度表现出敏感性,表明具备自适应标注策略。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。