QUICK REVIEW

[论文解读] Learning Algorithms for Active Learning

Philip Bachman, Alessandro Sordoni|arXiv (Cornell University)|Jul 31, 2017

Machine Learning and Algorithms参考文献 38被引用 53

一句话总结

一个元学习模型端到端训练，学习跨相关任务的主动学习策略、数据表示和预测构造器，在 Omniglot 一次分类和 MovieLens 冷启动推荐上有所演示。

ABSTRACT

We introduce a model that learns active learning algorithms via metalearning. For a distribution of related tasks, our model jointly learns: a data representation, an item selection heuristic, and a method for constructing prediction functions from labeled training sets. Our model uses the item selection heuristic to gather labeled training sets from which to construct prediction functions. Using the Omniglot and MovieLens datasets, we test our model in synthetic and practical settings.

研究动机与目标

通过从相关任务中学习主动学习策略来降低标注成本的动机。
提出一个端到端模型，联合学习数据表示、选择策略和预测构造。
将 Matching Networks 扩展到没有预先存在标签的情境，并通过反向传播和强化学习进行优化。
在 Omniglot 一Shot 任务和 MovieLens 冷启动推荐上演示该方法。

提出的方法

将主动学习建模为一个带有标注支持集和未标注样本池的序列决策问题。
用一个学习到的项选择策略和情境敏感的编码扩展 Matching Networks 以构建预测。
使用反向传播与策略梯度（GAE）的组合，以高效的 oracle 策略进行端到端训练。
使用快速（同一支持集内）和慢速（保留评估）预测模块来指导训练。
结合无上下文和有上下文的编码器、控制器 LSTM、选择模块，以及基于注意力的 Matching Network 预测器。
通过近似目标函数来优化，在预测奖励和标注成本之间取得平衡。

实验结果

研究问题

RQ1学习得到的主动学习策略是否能够在相关任务中超越工程化启发式方法？
RQ2端到端元学习在多大程度上能够同时优化表示、选择策略和预测构造以用于主动学习？
RQ3模型是否能泛化到比训练时看到的类别或 shots 更多的情形（例如 Omniglot 的 20 类？）
RQ4在实际情境中如冷启动推荐系统（MovieLens）中该方法是否有效？

主要发现

5 类	10 类	1-shot	2-shot	3-shot	1-shot	2-shot
Matching Net (random)	69.8% ±0.10	93.1% ±0.07	98.5% ±0.04	67.3% ±0.10	91.2% ±0.06	97.6% ±0.06
Matching Net (balanced)	97.9% ±0.07	98.9% ±0.07	99.2% ±0.06	96.5% ±0.04	98.3% ±0.03	98.7% ±0.05
Active MN	97.4% ±0.11	99.0% ±0.08	99.3% ±0.03	94.3% ±0.24	98.0% ±0.07	98.5% ±0.06
Min-Max-Cos	97.4% ±0.11	99.3% ±0.02	99.4% ±0.04	93.5% ±0.11	98.4% ±0.02	98.8% ±0.03

在 Omniglot 上，主动学习者接近一个乐观平衡基线，且在具有挑战性的设置下（如 1-shot、10-way）通常仅有小幅下降，接近匹配。
主动策略在任意时间点表现良好，并且能推广到训练时类别数更多的问题（如 20-way 分类）。
与乐观基线相比，1-shot 10-way 的下降为 2.2 个百分比点，说明任务越难挑战越大。
在 MovieLens 中，学习到的策略在 RMSE 上超越基线，经过 10 次评分后约提升 2.5%。
模型的主动学习组件（选择和快速/慢速预测）是必不可少的；移除关键特征（如注意力温度）会降低性能。
总体而言，表示、选择和预测的端到端学习在一Shot 分类和协同过滤方面均可超越与任务无关的启发式方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。