QUICK REVIEW

[论文解读] Harnessing Deep Neural Networks with Logic Rules

Zhiting Hu, Xuezhe Ma|arXiv (Cornell University)|Mar 21, 2016

Topic Modeling参考文献 47被引用 200

一句话总结

本文提出了一个迭代规则知识蒸馏框架，将一阶谓词逻辑规则注入到 CNN 与 RNN 中，通过将规则信息的预测蒸馏到网络权重，从而提升情感分析和命名实体识别的性能。

ABSTRACT

Combining deep neural networks with structured logic rules is desirable to harness flexibility and reduce uninterpretability of the neural models. We propose a general framework capable of enhancing various types of neural networks (e.g., CNNs and RNNs) with declarative first-order logic rules. Specifically, we develop an iterative distillation method that transfers the structured information of logic rules into the weights of neural networks. We deploy the framework on a CNN for sentiment analysis, and an RNN for named entity recognition. With a few highly intuitive rules, we obtain substantial improvements and achieve state-of-the-art or comparable results to previous best-performing systems.

研究动机与目标

将结构化逻辑规则与深度神经网络整合以提升可解释性并降低数据需求。
提出一个迭代的师生蒸馏框架，将规则知识转移到网络参数中。
在基于简单、直观规则的情感分析（CNN）和命名实体识别（RNN）上展示有效性。

提出的方法

将规则表示为软逻辑以允许连续真值。
通过在后验正则化约束（KL 散度加规则松弛）下投影基预测器 p_theta 构建规则正则化的教师 q。
训练学生 p_theta 以模仿 q，同时拟合真实标签，从而在未标注数据上实现半监督学习。
迭代交替教师构建和学生训练，将规则知识蒸馏到网络参数中。
使用一个 imitate parameter pi(t) ，在训练迭代中从真值学习转向规则模仿。

实验结果

研究问题

RQ1是否可以通过迭代蒸馏将可声明的一阶逻辑规则有效地集成到通用神经网络架构（CNN、RNN）中？
RQ2规则信息驱动的网络（学生 p 与教师 q）在情感分析和 NER 上是否优于纯数据驱动的基线？
RQ3软逻辑编码和基于规则的约束如何影响半监督学习和数据效率？

主要发现

在情感分析中，使用 Rule-p 和 Rule-q 的 CNN 比基线 CNN 表现更好，在 SST2 精度为 88.8%（相对于 87.2% 基线），使用教师模型时最高可达 89.3%（SST2）。
在 MR 和 CR 情感任务中，规则增强模型相对于基础 CNN 提升了准确率，其中 Rule-q 分别达到 81.7% 和 85.3%（MR/CR）。
在 CoNLL-2003 NER 中，结合转换规则和基于列表的约束使教师 q 的 F1 更高（91.11 和 91.18），相比基础 BLSTM（89.55）。
教师模型 q 通常优于蒸馏后学生 p，特别是规则引入跨片段依赖时。
使用未标注数据的半监督变体进一步提升性能，尤其在标签稀缺的情形。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。