Skip to main content
QUICK REVIEW

[论文解读] Learning the Structure of Generative Models without Labeled Data

Stephen H. Bach, Bryan He|arXiv (Cornell University)|Mar 2, 2017
Music and Audio Processing参考文献 35被引用 70
一句话总结

提出一种 l1 正则化的边际伪似然方法,能够在没有标注数据的情况下自动学习生成模型的依赖结构以进行弱监督,实现亚线性样本复杂度并相对于完整结构方法获得巨大的加速。

ABSTRACT

Curating labeled training data has become the primary bottleneck in machine learning. Recent frameworks address this bottleneck with generative models to synthesize labels at scale from weak supervision sources. The generative model's dependency structure directly affects the quality of the estimated labels, but selecting a structure automatically without any labeled data is a distinct challenge. We propose a structure estimation method that maximizes the $\ell_1$-regularized marginal pseudolikelihood of the observed data. Our analysis shows that the amount of unlabeled data required to identify the true structure scales sublinearly in the number of possible dependencies for a broad class of models. Simulations show that our method is 100$ imes$ faster than a maximum likelihood approach and selects $1/4$ as many extraneous dependencies. We also show that our method provides an average of 1.5 F1 points of improvement over existing, user-developed information extraction applications on real-world data such as PubMed journal abstracts.

研究动机与目标

  • 说明标注数据在监督学习中的瓶颈,以及从弱监督源推断真实标签的必要性。
  • 引入一种结构学习方法,能够在不使用真实标签的情况下自动识别标注函数之间的依赖。
  • 开发一个可扩展的优化框架,使用 l1-正则化的边际伪似然来选择依赖关系。
  • 就恢复真实结构的样本复杂度提供理论保证。
  • 在合成数据和真实世界的弱监督任务上实证验证速度和准确性的提升。

提出的方法

  • 使用数据编程框架对弱监督建模,其中标注函数为未标记数据生成带噪声的输出。
  • 推广到含对标注函数之间的成对及更高阶依赖以及潜在真实标签的依赖增强因子图。
  • 用一个高效的 l1 正则化边际伪似然目标取代全结构学习,该目标在给定其他所有标注函数的条件下计算精确梯度(无需吉布斯采样)。
  • 通过逐个学习每个标注函数的依赖关系来优化目标,使用带在线截断梯度的 SGD 以强制稀疏性(算法1)。
  • 提供理论恢复保证:足够的未标记数据 m 规模为 O(d/(c^2 κ^2) log(nd/δ)),其中 d 是每个变量的最大依赖数;推论给出仅对成对/准确性相关时为 O(n log n)。

实验结果

研究问题

  • RQ1是否可以仅凭未标记数据自动学习弱监督的生成模型结构?
  • RQ2在各种依赖设置下,可靠恢复真实依赖结构的数据效率(样本复杂度)是多少?
  • RQ3相比于假设条件独立,学习依赖关系是否能改善下游的弱监督任务?
  • RQ4在速度和准确性方面,基于伪似然的结构学习与含吉布斯采样的完整边缘似然相比表现如何?
  • RQ5理论保证在合成和真实世界的弱监督应用中是否得到证实?

主要发现

  • 对于每个标注函数,在其他条件下的 l1 正则化边际伪似然方法在没有标注数据的情况下高效地恢复依赖关系。
  • Algorithm 1 相较于使用吉布斯采样的完整边际似然在结构学习方面快很多(100x)。
  • 聚焦成对相关性和准确性依赖时,样本复杂度在潜在依赖数量上的增长呈亚线性(O(n log n))。
  • 在真实世界的弱监督任务(PubMed 摘要、硬件规格)相比独立标注函数模型,平均提升约 1.5 个 F1 点。
  • 在合成设置中,该方法加速学习并减少额外依赖(大约减少四分之一的额外相关性),相比完整依赖搜索。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。