[论文解读] Data Programming: Creating Large Training Sets, Quickly
本文提出数据编程,一种框架,通过标签函数的弱监督信号由生成模型去噪并用带噪声感知损失训练判别模型,在监督学习率下工作,但所需人工标注样本更少。
Large labeled training sets are the critical building blocks of supervised learning methods and are key enablers of deep learning techniques. For some applications, creating labeled training sets is the most time-consuming and expensive part of applying machine learning. We therefore propose a paradigm for the programmatic creation of training sets called data programming in which users express weak supervision strategies or domain heuristics as labeling functions, which are programs that label subsets of the data, but that are noisy and may conflict. We show that by explicitly representing this training set labeling process as a generative model, we can "denoise" the generated training set, and establish theoretically that we can recover the parameters of these generative models in a handful of settings. We then show how to modify a discriminative loss function to make it noise-aware, and demonstrate our method over a range of discriminative models including logistic regression and LSTMs. Experimentally, on the 2014 TAC-KBP Slot Filling challenge, we show that data programming would have led to a new winning score, and also show that applying data programming to an LSTM model leads to a TAC-KBP score almost 6 F1 points over a state-of-the-art LSTM baseline (and into second place in the competition). Additionally, in initial user studies we observed that data programming may be an easier way for non-experts to create machine learning models when training data is limited or unavailable.
研究动机与目标
- 点明手工标注数据成本高昂以及对可扩展弱监督的需求。
- 提出将标签函数作为可编程的弱监督来源,以生成大规模训练集。
- 将标注过程建模为生成/因子图框架,以去噪标签并学习函数的准确性和依赖关系。
- 证明在常数个 O(1) 个标签函数和 O(ε^{-2}) 无标注数据的条件下,学习性能在某些条件下可以达到与监督方法相同。
- 展示在真实世界关系抽取任务上的性能提升,并报告领域专家的可用性见解。
提出的方法
- 将标签函数 λ: X → {-1,0,1} 定义为弱监督信号。
- 使用参数 α(准确性)和 β(覆盖率)的生成模型 μ_{α,β} 对标注输出 Λ 与真实标签 Y 的联合分布建模。
- 通过无标注数据的最大似然估计来估计 α、β,使用随机梯度下降(Eq. 2)。
- 通过最小化对观测到的 Λ 条件的改良逻辑回归损失 L_{α̂, β̂} 来训练带噪声感知的判别模型(Eq. 3)。
- 给出理论保证:在 m 个标签函数和 |S| 无标注样本的情况下,E[‖α̂−α*‖²]、E[‖β̂−β*‖²] 以及 E[L(ŵ)−min_w L(w)] 的尺度在某些条件下有利地扩大,达到与监督学习速率相匹配的样本复杂度。
- 扩展模型以通过因子图表示处理标签函数的依赖性,学习一个增强参数 θ(Eq. 7–9)。
- 在存在依赖的情形下使用 Gibbs 采样和 SGD,并建立与独立情形相似的学习率保证。
实验结果
研究问题
- RQ1一个小集合的用户定义标签函数(弱监督信号)在经过概率模型去噪后,是否能够生成训练标签,从而使判别模型达到与完全监督方法相竞争的性能?
- RQ2在标签函数之间引入依赖关系如何影响参数学习与预测性能?
- RQ3与传统监督学习相比,数据编程在理论上的样本复杂度与泛化保证有哪些?
- RQ4数据编程是否可以扩展到现实世界的 NLP 任务,并与自动特征生成(如 LSTM)协同工作?
主要发现
- 数据编程可以通过学习标签函数的准确性和依赖关系来去噪弱监督信号。
- 在特定条件下,该框架可达到与监督方法相同的渐近学习速率,使用 O(1) 个标签函数和 Õ(ε^{-2}) 的无标注数据。
- 将数据编程应用于现实世界的关系抽取任务,在 distant supervision 基线基础上实现平均 F1 提升(如 +2.34 点),在 TAC-KBP 2014 基准测试中相较于最先进的 LSTM 基线接近 +6 的 F1 提升。
- 在 TAC-KBP(News)中,使用 LSTM 生成的特征与数据编程结合,取得显著增益,包括精确度提升 9.79 点和 F1 提升 3.12 点。
- 与生物信息学研究人员进行的可用性研究表明,标签函数开发可以更快且对非专家更易接受,使得在有限或无标注数据的情况下也能获得具有竞争力的模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。