Skip to main content
QUICK REVIEW

[论文解读] Neural Logic Rule Layers

Jan Reimann, Andreas Schwung|arXiv (Cornell University)|Jan 1, 2019
Bayesian Modeling and Causal Inference参考文献 14被引用 5
一句话总结

本文提出神经逻辑规则层(NLRL),一种可微分的神经网络模块,可将逻辑规则——特别是合取范式与析取范式——嵌入深度学习架构中。通过结合可学习的非门、共享权重的与/或连接器以及规则选择门控机制,NLRL 实现了可解释逻辑规则的端到端训练,在合成逻辑与算术任务上实现了高准确率,同时保持了人类可理解性并支持知识注入。

ABSTRACT

Despite their great success in recent years, deep neural networks (DNN) are mainly black boxes where the results obtained by running through the network are difficult to understand and interpret. Compared to e.g. decision trees or bayesian classifiers, DNN suffer from bad interpretability where we understand by interpretability, that a human can easily derive the relations modeled by the network. A reasonable way to provide interpretability for humans are logical rules. In this paper we propose neural logic rule layers (NLRL) which are able to represent arbitrary logic rules in terms of their conjunctive and disjunctive normal forms. Using various NLRL within one layer and correspondingly stacking various layers, we are able to represent arbitrary complex rules by the resulting neural network architecture. The NLRL are end-to-end trainable allowing to learn logic rules directly from available data sets. Experiments show that NLRL-enhanced neural networks can learn to model arbitrary complex logic and perform arithmetic operation over the input values.

研究动机与目标

  • 通过将逻辑规则直接嵌入网络架构,解决深度神经网络(DNNs)可解释性差的问题。
  • 在保持人类可理解的推理结构的同时,通过反向传播实现逻辑规则的端到端训练。
  • 允许以预定义的逻辑规则形式直接整合专家知识到神经网络中。
  • 通过基于规则的决策机制,减少未知输入下的误报,提升模型鲁棒性。
  • 探索神经层对逻辑函数与非线性函数的表征能力。

提出的方法

  • NLRL 架构由三个模块组成:使用 Sigmoid 门控机制的可学习非门,用于计算 ¬x = (1−σ(gu))◦x + σ(gu)◦(1−x)。
  • 与门和或门共享权重,其代数形式定义为:AND = exp(A(log(|ˆx|+ϵ))),OR = ((1−anˆxn)⊙…⊙(1−a2ˆx2)⊙(−1a1ˆx1))1+1。
  • 输出门控单元 σ(gr) 通过 y = (1−σ(gr))◦AND + σ(gr)◦OR 选择与或门输出。
  • 整个结构可通过反向传播实现端到端训练,支持规则参数与网络权重的联合优化。
  • 该方法可通过合取范式与析取范式表示任意逻辑函数,并在结合适当激活函数时可建模非线性函数。
  • 通过将规则参数初始化为专家定义的逻辑表达式,该架构支持知识注入,随后通过反向传播进行微调。

实验结果

研究问题

  • RQ1神经网络能否被设计为以合取范式与析取范式表示任意逻辑规则,同时保持可微分性与可训练性?
  • RQ2可学习的逻辑层的引入如何影响在合成逻辑与算术任务上的训练收敛性与性能表现?
  • RQ3NLRL 在多大程度上可将预定义的专家知识(即逻辑规则)整合并利用数据进行微调?
  • RQ4与标准的 Softmax 输出层相比,NLRL 架构是否在未知输入下表现出更强的鲁棒性?
  • RQ5NLRL 是否能有效建模超越纯逻辑的非线性函数,例如算术运算?

主要发现

  • 同时具备与门和或门能力的网络(AND-OR)尽管计算成本更高,但收敛速度更快,性能优于仅使用与门的网络。
  • AND-NEG 网络(包含冗余非门)的收敛速度显著慢于 AND-NONEG 网络,尤其在深层架构中,原因在于循环训练行为与参数冗余。
  • 性能在连接尺寸(CS)为 8 时趋于饱和,表明进一步增加网络宽度无法提升结果,暗示测试任务的最优容量。
  • 损失函数表现出阶梯式下降模式,表明单个逻辑规则以离散阶段收敛,可能源于优化的组合性质与 Sigmoid 导数行为。
  • 对学习表面的定性可视化证实,高性能网络准确捕捉了训练数据的底层逻辑与算术流形。
  • 由于需并行评估与门与或门路径,AND-OR 网络的计算时间显著高于其他结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。