Skip to main content
QUICK REVIEW

[论文解读] Refining Neural Networks with Compositional Explanations.

Huihan Yao, Ying Chen|arXiv (Cornell University)|Mar 18, 2021
Explainable Artificial Intelligence (XAI)被引用 3
一句话总结

本文提出通过人类提供的组合式解释来优化神经网络,以解决偏差数据集中虚假相关性的问题。通过整合关于虚假模式和特征交互的可泛化规则,该方法提升了模型在未见目标领域中的鲁棒性和文本分类任务的性能。

ABSTRACT

Neural networks are prone to learning spurious correlations from biased datasets, and are thus vulnerable when making inferences in a new target domain. Prior work reveals spurious patterns via post-hoc model explanations which compute the importance of input features, and further eliminates the unintended model behaviors by regularizing importance scores with human knowledge. However, such regularization technique lacks flexibility and coverage, since only importance scores towards a pre-defined list of features are adjusted, while more complex human knowledge such as feature interaction and pattern generalization can hardly be incorporated. In this work, we propose to refine a learned model by collecting human-provided compositional explanations on the models' failure cases. By describing generalizable rules about spurious patterns in the explanation, more training examples can be matched and regularized, tackling the challenge of regularization coverage. We additionally introduce a regularization term for feature interaction to support more complex human rationale in refining the model. We demonstrate the effectiveness of the proposed approach on two text classification tasks by showing improved performance in target domain after refinement.

研究动机与目标

  • 解决现有正则化技术仅调整预定义特征重要性分数的局限性,缺乏对复杂人类知识的覆盖。
  • 通过捕捉描述虚假模式可泛化规则的组合式人类解释,提升模型的泛化能力。
  • 将正则化扩展至包含特征交互,使更复杂的推理过程能够指导模型优化。
  • 通过利用人类提供的失败案例解释,提升模型在分布外设置下的鲁棒性。
  • 在现实世界中的文本分类任务中验证该方法的有效性,实现目标领域性能的提升。

提出的方法

  • 收集人类对模型失败案例的组合式解释,以识别训练数据中的虚假模式。
  • 制定一种正则化项,将训练样本与从人类解释中推导出的可泛化规则相匹配,从而扩大覆盖范围,超越固定特征列表。
  • 引入特征交互正则化组件,以建模人类推理中描述的特征间复杂依赖关系。
  • 将基于组合式解释的正则化整合到模型训练过程中,以优化预测结果并减少对虚假相关性的依赖。
  • 利用优化后的模型提升在虚假相关性普遍存在的目标领域数据上的性能。
  • 利用事后解释方法识别失败案例,并指导人类提供组合式规则的收集。

实验结果

研究问题

  • RQ1组合式人类解释是否能够提升正则化的覆盖范围和有效性,超越固定特征重要性调整?
  • RQ2在正则化中引入特征交互规则,对模型在分布外设置下的鲁棒性有何影响?
  • RQ3从人类解释中推导出的可泛化规则在多大程度上能减少模型对偏差数据集中虚假相关性的依赖?
  • RQ4所提出的方法是否能在目标领域文本分类任务中带来可测量的性能提升?
  • RQ5失败案例的解释能否被有效转化为可扩展的正则化信号以指导模型优化?

主要发现

  • 所提方法在模型优化后,显著提升了目标领域文本分类任务的性能,表现出更强的鲁棒性。
  • 引入组合式解释使正则化覆盖的训练样本范围,相比传统基于特征重要性的方法更广。
  • 引入特征交互正则化后,模型对未被单特征规则捕捉的复杂虚假模式具有更好的处理能力。
  • 通过利用人类提供的可泛化规则,该方法有效降低了模型对虚假相关性的依赖。
  • 优化过程显著提升了模型对分布外数据的泛化能力,表现为在未见领域中的性能提升。
  • 即使仅标注有限数量的失败案例,该方法仍表现出有效性,显示出在真实世界场景中的可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。