QUICK REVIEW

[论文解读] Active One-shot Learning

Mark P. Woodward, Chelsea Finn|arXiv (Cornell University)|Feb 21, 2017

Machine Learning and Algorithms参考文献 18被引用 66

一句话总结

本论文学习一个主动学习者，使用强化学习在一系列图像上决定是标注还是请求真实标签，从而在可控标注成本的前提下实现类似一次性任务的性能。

ABSTRACT

Recent advances in one-shot learning have produced models that can learn from a handful of labeled examples, for passive classification and regression tasks. This paper combines reinforcement learning with one-shot learning, allowing the model to decide, during classification, which examples are worth labeling. We introduce a classification task in which a stream of images are presented and, on each time step, a decision must be made to either predict a label or pay to receive the correct label. We present a recurrent neural network based action-value function, and demonstrate its ability to learn how and when to request labels. Through the choice of reward function, the model can achieve a higher prediction accuracy than a similar model on a purely supervised task, or trade prediction accuracy for fewer label requests.

研究动机与目标

通过让模型在获取标签时自行选择来降低学习中的监督成本的动机。
开发一个元学习框架，将一次性学习与主动标注决策相结合。
训练一个深度循环模型，使其作为标注策略，使用强化学习来行动。

提出的方法

将任务形式化为来自 Omniglot 的图像序列的在线主动学习问题。
用基于 LSTM 的网络表示动作价值函数 Q(o_t, a_t)。
使用单热编码的动作输出，动作要么是预测标签，要么是请求真实标签。
为正确预测、错误预测和请求标签定义奖励以塑造策略。
使用强化学习进行训练以最大化累计奖励，且不使用单独的目标网络。
与有监督学习基线进行比较，并分析准确性与标注成本之间的权衡。

实验结果

研究问题

RQ1在在线一次性学习情景中，深度循环模型能否学习何时请求标签？
RQ2强化学习是否能够实现对不确定性有感知的合理标注决策，在准确性与标注成本之间取得平衡？
RQ3奖励设置如何影响预测准确性与标签请求数量之间的权衡？
RQ4模型是否表现出超出固定标签计划的、不确定性估计的行为？

主要发现

模型	准确率 (%)	请求标签的比例 (%)
Supervised	91.0	100.0
RL	75.9	7.2
RL Prediction	81.8	7.2
RL Prediction (R_inc=-5)	86.4	31.8
RL Prediction (R_inc=-10)	89.3	45.6
RL Prediction (R_inc=-20)	92.8	60.6

该模型学习在一个类别的早期实例请求更多标签、在后期实例请求更少，从而随着时间推移以更少标签实现更高的准确性。
在适当的奖励下，RL 的预测准确性高于纯监督基线，同时使用的标签数量显著更少（例如 RL 请求 7.2% 对比监督的 100%）。
该模型展现出对不确定性的感知行为，在遇到潜在新类别或分布变化时调整标签请求。
通过改变对错误预测的惩罚 (R_inc)，该方法能够在准确性与标注成本之间进行权衡，产生一系列性能。
在同一架构下，基于 RL 的方法通过利用请求标签的行动，能够超过 Omniglot 上的监督学习。
在测试情景中，模型对类别切换和序列长度表现出敏感性，表明具备自适应标注策略。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。