Skip to main content
QUICK REVIEW

[论文解读] Active Semi-Supervised Learning using Submodular Functions

Andrew Guillory, Jeff Bilmes|arXiv (Cornell University)|Feb 14, 2012
Machine Learning and Algorithms参考文献 19被引用 33
一句话总结

本文提出了一种新颖的主动半监督学习框架,通过用任意对称子模函数替代图切割,将基于图的学习的误差界推广至更广范围。该方法提出了一种近似最小化这些误差界的方法,证明了该界是紧致的且精确最小化为NP完全问题,并在真实数据上进行了实证验证。

ABSTRACT

We consider active, semi-supervised learning in an offline transductive setting. We show that a previously proposed error bound for active learning on undirected weighted graphs can be generalized by replacing graph cut with an arbitrary symmetric submodular function. Arbitrary non-symmetric submodular functions can be used via symmetrization. Different choices of submodular functions give different versions of the error bound that are appropriate for different kinds of problems. Moreover, the bound is deterministic and holds for adversarially chosen labels. We show exactly minimizing this error bound is NP-complete. However, we also introduce for any submodular function an associated active semi-supervised learning method that approximately minimizes the corresponding error bound. We show that the error bound is tight in the sense that there is no other bound of the same form which is better. Our theoretical results are supported by experiments on real data.

研究动机与目标

  • 解决现有主动学习方法依赖图切割的局限性,后者对多样化数据结构具有限制性。
  • 将归纳主动学习中的误差界推广至图切割之外,适用于任意对称子模函数。
  • 开发一种实用算法,近似最小化适用于现实世界应用的广义误差界。
  • 建立理论保证,包括边界的紧致性以及精确最小化的NP完全性。
  • 在真实数据集上实证验证该方法,证明其在不同子模函数选择下的有效性。

提出的方法

  • 在主动学习中用任意对称子模函数替代基于图切割的误差界,以推广该界。
  • 通过对称化方法将框架扩展至非对称子模函数。
  • 制定一种主动学习目标,通过子模优化最小化广义误差界。
  • 提出一种贪心近似算法,在子模约束下最小化误差界。
  • 通过证明边界为确定性且在对抗性标签分配下依然成立,确保理论鲁棒性。
  • 在离线、归纳设置下应用该方法,其中未标记数据固定,标签自适应选择。

实验结果

研究问题

  • RQ1主动学习中的误差界能否超越图切割,推广至任意对称子模函数?
  • RQ2子模函数的选择如何影响主动学习方法的性能与泛化能力?
  • RQ3所提出的误差界是否比同形式的现有边界更紧致?
  • RQ4最小化所提误差界的计算复杂度如何?
  • RQ5能否设计一种高效的近似算法,使其在实践中有效最小化该边界?

主要发现

  • 所提出的误差界在理论上是紧致的,意味着不存在同形式的其他边界能始终更优。
  • 精确最小化误差界为NP完全问题,确立了该优化问题的理论难度。
  • 该框架通过允许任意对称子模函数,推广了先前基于图切割的边界。
  • 通过引入对称化,该方法支持非对称子模函数,显著拓宽了适用范围。
  • 在真实数据上的实证结果表明,该方法在不同子模函数选择下均表现出有效性。
  • 理论框架提供了确定性边界,即使在对抗性标签分配下依然成立。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。