QUICK REVIEW

[论文解读] A Survey on Programmatic Weak Supervision

Jieyu Zhang, Cheng-Yu Hsieh|arXiv (Cornell University)|Feb 11, 2022

Machine Learning and Data Classification被引用 40

一句话总结

对程序化弱监督（PWS）的全面综述，详细介绍标注函数、标签模型、端模型、联合模型，以及PWS如何与相关学习范式、数据集和应用整合。

ABSTRACT

Labeling training data has become one of the major roadblocks to using machine learning. Among various weak supervision paradigms, programmatic weak supervision (PWS) has achieved remarkable success in easing the manual labeling bottleneck by programmatically synthesizing training labels from multiple potentially noisy supervision sources. This paper presents a comprehensive survey of recent advances in PWS. In particular, we give a brief introduction of the PWS learning paradigm, and review representative approaches for each component within PWS's learning workflow. In addition, we discuss complementary learning paradigms for tackling limited labeled data scenarios and how these related approaches can be used in conjunction with PWS. Finally, we identify several critical challenges that remain under-explored in the area to hopefully inspire future research directions in the field.

研究动机与目标

介绍程序化弱监督（PWS）学习范式及其动机，降低标注工作量。
回顾PWS工作流的组成部分，包括标注函数、标签模型、端模型和联合模型。
讨论标注函数和依赖结构的实际生成，以及对各种任务和模态的扩展综述。
探索互补学习范式并概述PWS的挑战与未来方向。

提出的方法

将PWS方法分为两阶段（先标签模型再端模型）和一阶段（联合模型）。
综述标注函数类型（用户编写的规则、知识库、预训练模型、众包标签、第三方工具）。
将标签模型描述为概率图模型，以及它们如何纳入LF依赖。
详细说明端模型在概率标签上训练和处理LF未覆盖的数据（如自训练）。
解释联合模型如何共同训练标签模型和端模型，包括实例相关的标签建模。
总结对序列标注、通用任务和多任务学习的扩展；讨论自动/互动/引导的LF生成。

实验结果

研究问题

RQ1如何以数据高效的方式整合弱监督源（标注函数）以恢复真实标签？
RQ2针对不同学习任务（分类、序列标注等）有哪些可用的标签模型和端模型，它们如何处理LF依赖？
RQ3生成和 refinement 标注函数（自动、互动、引导）以减少人工投入的有效策略是什么？
RQ4如何将PWS与互补方法（主动学习、迁移学习、SSL）结合，以解决标注数据有限的问题？
RQ5在将PWS扩展到更复杂的任务和多模态数据时，确保道德与可信AI的挑战和未来方向是什么？

主要发现

标签模型将噪声LF输出聚合为概率标签或硬标签，考虑LF依赖。
联合模型利用神经网络共同训练标签模型和端模型，隐式捕捉依赖。
LF 生成可以自动、互动或引导，以降低领域专家（SME）负担。
扩展现在支持序列标注和一些通用任务，并有处理连续和间接LF的方法。
PWS 与主动学习、迁移学习和SSL互为补充，形成更广泛的数据高效学习工具箱。
示例和数据集显示PWS在不同领域和模态中的适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。