[论文解读] Active One-shot Learning
本论文学习一个主动学习者,使用强化学习在一系列图像上决定是标注还是请求真实标签,从而在可控标注成本的前提下实现类似一次性任务的性能。
Recent advances in one-shot learning have produced models that can learn from a handful of labeled examples, for passive classification and regression tasks. This paper combines reinforcement learning with one-shot learning, allowing the model to decide, during classification, which examples are worth labeling. We introduce a classification task in which a stream of images are presented and, on each time step, a decision must be made to either predict a label or pay to receive the correct label. We present a recurrent neural network based action-value function, and demonstrate its ability to learn how and when to request labels. Through the choice of reward function, the model can achieve a higher prediction accuracy than a similar model on a purely supervised task, or trade prediction accuracy for fewer label requests.
研究动机与目标
- 通过让模型在获取标签时自行选择来降低学习中的监督成本的动机。
- 开发一个元学习框架,将一次性学习与主动标注决策相结合。
- 训练一个深度循环模型,使其作为标注策略,使用强化学习来行动。
提出的方法
- 将任务形式化为来自 Omniglot 的图像序列的在线主动学习问题。
- 用基于 LSTM 的网络表示动作价值函数 Q(o_t, a_t)。
- 使用单热编码的动作输出,动作要么是预测标签,要么是请求真实标签。
- 为正确预测、错误预测和请求标签定义奖励以塑造策略。
- 使用强化学习进行训练以最大化累计奖励,且不使用单独的目标网络。
- 与有监督学习基线进行比较,并分析准确性与标注成本之间的权衡。
实验结果
研究问题
- RQ1在在线一次性学习情景中,深度循环模型能否学习何时请求标签?
- RQ2强化学习是否能够实现对不确定性有感知的合理标注决策,在准确性与标注成本之间取得平衡?
- RQ3奖励设置如何影响预测准确性与标签请求数量之间的权衡?
- RQ4模型是否表现出超出固定标签计划的、不确定性估计的行为?
主要发现
| 模型 | 准确率 (%) | 请求标签的比例 (%) |
|---|---|---|
| Supervised | 91.0 | 100.0 |
| RL | 75.9 | 7.2 |
| RL Prediction | 81.8 | 7.2 |
| RL Prediction (R_inc=-5) | 86.4 | 31.8 |
| RL Prediction (R_inc=-10) | 89.3 | 45.6 |
| RL Prediction (R_inc=-20) | 92.8 | 60.6 |
- 该模型学习在一个类别的早期实例请求更多标签、在后期实例请求更少,从而随着时间推移以更少标签实现更高的准确性。
- 在适当的奖励下,RL 的预测准确性高于纯监督基线,同时使用的标签数量显著更少(例如 RL 请求 7.2% 对比监督的 100%)。
- 该模型展现出对不确定性的感知行为,在遇到潜在新类别或分布变化时调整标签请求。
- 通过改变对错误预测的惩罚 (R_inc),该方法能够在准确性与标注成本之间进行权衡,产生一系列性能。
- 在同一架构下,基于 RL 的方法通过利用请求标签的行动,能够超过 Omniglot 上的监督学习。
- 在测试情景中,模型对类别切换和序列长度表现出敏感性,表明具备自适应标注策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。