QUICK REVIEW

[论文解读] Inferring Generative Model Structure with Static Analysis

Paroma Varma, Bryan He|arXiv (Cornell University)|Sep 7, 2017

Multimodal Machine Learning Applications参考文献 9被引用 36

一句话总结

Coral 通过静态分析启发式代码以检测共享的领域特定原语，从而推断弱监督的生成模型结构，实现准线性样本复杂度并显著减少数据需求。在无真实标签的情况下对放射科数据进行标注时，其 F1 最高提升 3.81 分，判别模型准确率相比完全监督基线提升 3.07 分。

ABSTRACT

Obtaining enough labeled data to robustly train complex discriminative models is a major bottleneck in the machine learning pipeline. A popular solution is combining multiple sources of weak supervision using generative models. The structure of these models affects training label quality, but is difficult to learn without any ground truth labels. We instead rely on these weak supervision sources having some structure by virtue of being encoded programmatically. We present Coral, a paradigm that infers generative model structure by statically analyzing the code for these heuristics, thus reducing the data required to learn structure significantly. We prove that Coral's sample complexity scales quasilinearly with the number of heuristics and number of relations found, improving over the standard sample complexity, which is exponential in $n$ for identifying $n^{ extrm{th}}$ degree relations. Experimentally, Coral matches or outperforms traditional structure learning approaches by up to 3.81 F1 points. Using Coral to model dependencies instead of assuming independence results in better performance than a fully supervised model by 3.07 accuracy points when heuristics are used to label radiology data without ground truth labels.

研究动机与目标

为解决学习弱监督源生成模型结构的高数据成本问题。
通过利用程序化启发式代码的共享输入，减少对标注数据的依赖以进行结构学习。
在无需手动指定的情况下，实现对启发式代码之间复杂高阶依赖关系的高效推断。
在低资源环境下，提升生成模型分配的概率训练标签的准确性。
证明对启发式代码进行静态分析可优于传统结构学习方法，在准确性和效率方面均表现更优。

提出的方法

Coral 对启发式函数和领域特定原语的源代码执行静态分析，以识别共享输入。
通过将操作于相同原语的启发式代码分组，构建依赖结构，形成带有隐式真实标签的因子图。
该方法利用启发式代码的程序化特性，在无需标注数据的情况下推断关系，将样本复杂度降低至准线性量级。
Coral 使用生成模型对启发式代码和原语的联合分布进行建模，估计启发式代码的准确率并推断真实标签。
其采用因子图表示，其中启发式代码在给定共享原语和真实类别标签的条件下条件依赖。
该方法通过静态代码分析预先定义依赖关系，而非从数据中学习，从而避免指数级样本复杂度。

实验结果

研究问题

RQ1是否可通过对启发式代码进行静态分析，在无标注数据的情况下推断生成模型结构？
RQ2与基于数据的结构学习相比，通过代码分析推断依赖关系是否能降低样本复杂度？
RQ3当真实标签不可用时，Coral 是否能提升标签质量及下游判别模型的性能？
RQ4在弱监督设置下，Coral 的性能与传统结构学习相比，在 F1 和准确率方面表现如何？
RQ5Coral 能在多大程度上捕捉标准方法所遗漏的启发式代码之间的高阶依赖关系？

主要发现

Coral 将样本复杂度降低至与启发式代码及关系数量呈准线性关系，优于标准方法的指数级增长。
在实验评估中，Coral 相较于传统结构学习方法，F1 最高提升 3.81 分。
在无真实标签的放射科数据上，Coral 增强的训练数据使判别模型准确率提升 3.07 分。
在图像分类任务中，仅使用位置和对象标签的 6 个启发式代码，训练出的模型在 Visual Genome 数据集上的 F1 与完全监督模型相差不超过 0.74 分。
Coral 的静态分析可恒定时间识别依赖关系，无论依赖程度高低，均能高效检测高阶关系。
在低数据场景下，Coral 通过有效建模弱监督源之间的复杂依赖关系，优于完全监督基线方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。