Skip to main content
QUICK REVIEW

[论文解读] Discovering General-Purpose Active Learning Strategies

Ksenia Konyushkova, Raphael Sznitman|arXiv (Cornell University)|Oct 9, 2018
Machine Learning and Algorithms参考文献 46被引用 19
一句话总结

本文提出一种通过深度Q网络强化学习训练的通用主动学习策略,将其形式化为具有通用状态和动作表示的马尔可夫决策过程。该方法发现非短视、可迁移的策略,能在多种数据集上最小化标注成本,优于最先进的基线方法,包括元主动学习方法。

ABSTRACT

We propose a general-purpose approach to discovering active learning (AL) strategies from data. These strategies are transferable from one domain to another and can be used in conjunction with many machine learning models. To this end, we formalize the annotation process as a Markov decision process, design universal state and action spaces and introduce a new reward function that precisely model the AL objective of minimizing the annotation cost. We seek to find an optimal (non-myopic) AL strategy using reinforcement learning. We evaluate the learned strategies on multiple unrelated domains and show that they consistently outperform state-of-the-art baselines.

研究动机与目标

  • 开发一种适用于无关数据集之间迁移的通用主动学习策略,并与各种机器学习模型兼容。
  • 通过从先前的主动学习经验中学习,克服手工设计、短视或模型特定的主动学习策略的局限性。
  • 将主动学习过程形式化为马尔可夫决策过程,其奖励函数可直接优化标注成本最小化目标。
  • 实现非短视、数据驱动的策略发现,超越贪婪选择和人类直觉。
  • 创建一种简单、可解释且普遍适用的框架,独立于特定分类器或性能度量。

提出的方法

  • 将主动学习形式化为马尔可夫决策过程(MDP),其中智能体选择样本进行标注以最小化标注成本。
  • 定义通用的状态和动作表示,与数据集和模型无关,实现跨领域的迁移。
  • 设计一种新型奖励函数,直接反映最小化达到目标性能阈值所需标注数量的目标。
  • 使用改进的深度Q网络(DQN)处理大规模动作空间,强制执行单次标注约束,并建模序列依赖关系。
  • 通过多个数据集的经验端到端训练策略,实现在未见过的、无关数据集上的迁移。
  • 通过避免在状态和动作表示中使用模型特定特征,确保与任何基础分类器的兼容性。

实验结果

研究问题

  • RQ1基于数据驱动的强化学习方法能否发现可在无关数据集之间泛化的主动学习策略?
  • RQ2非短视的、学习得到的策略是否在最小化标注成本方面优于贪婪策略、手工设计策略或元学习基线?
  • RQ3所学习的策略在行为上与传统基于不确定性的采样或随机采样方法有何不同?
  • RQ4可迁移性在多大程度上依赖于多样化预训练数据,而非对底层数据分布的访问?
  • RQ5该方法是否可普遍应用于不同机器学习模型而无需微调或架构修改?

主要发现

  • 所学习的LAL-RL策略在标注数量上显著优于随机采样:在一个UCI数据集上,仅需25次迭代即可达到目标性能,而随机采样需75次。
  • LAL-RL策略表现出非短视行为:初期选择不确定性较高的样本(p ≈ 0.5),随后转向均匀采样,最后聚焦于高置信度预测(p ≈ 0或1),展现出结构化、自适应的选择模式。
  • 平均而言,LAL-RL在多个无关数据集上优于最先进的基线方法,包括近期的元主动学习方法,在标注效率方面表现更优。
  • 策略可迁移性较强:即使在数据集一半上训练、另一半上测试,LAL-RL仍表现良好,表明其学习到了超越数据集特异性统计的通用模式。
  • 在测试无关数据集时(例如,在数据集1上训练,在数据集2–9上测试),成功率下降至约40%,证实可迁移性依赖于多样化预训练数据,而非单数据集适应。
  • 奖励函数聚焦于最小化标注成本,使优化过程更加透明,且与实践者目标一致,独立于特定性能度量或分类器。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。