Skip to main content
QUICK REVIEW

[论文解读] Rationale-Augmented Convolutional Neural Networks for Text Classification

Ye Zhang, Iain Marshall|arXiv (Cornell University)|May 14, 2016
Topic Modeling参考文献 25被引用 23
一句话总结

本文提出RA-CNN,一种通过联合利用文档级标签和人工标注的句子级解释(rationales)来提升文本分类性能的解释性增强卷积神经网络。通过建模句子重要性并基于解释概率估计对句子贡献进行加权,RA-CNN在五个数据集上均取得了当前最优性能,同时自然地提供了可解释的、基于解释的预测结果。

ABSTRACT

We present a new Convolutional Neural Network (CNN) model for text classification that jointly exploits labels on documents and their component sentences. Specifically, we consider scenarios in which annotators explicitly mark sentences (or snippets) that support their overall document categorization, i.e., they provide rationales. Our model exploits such supervision via a hierarchical approach in which each document is represented by a linear combination of the vector representations of its component sentences. We propose a sentence-level convolutional model that estimates the probability that a given sentence is a rationale, and we then scale the contribution of each sentence to the aggregate document representation in proportion to these estimates. Experiments on five classification datasets that have document labels and associated rationales demonstrate that our approach consistently outperforms strong baselines. Moreover, our model naturally provides explanations for its predictions.

研究动机与目标

  • 开发一种能够联合利用文档级标签和句子级解释的神经网络模型,以提升文本分类性能。
  • 通过基于解释的解释生成,解决黑箱神经网络模型可解释性不足的问题。
  • 超越不使用解释监督的现有CNN和SVM基线模型。
  • 探究显式建模解释重要性是否能在长文档中带来更大的性能提升。
  • 提供一种可扩展的、端到端的深度学习框架,以分层方式整合多级监督(文档级与句子级)。

提出的方法

  • 模型将每个文档表示为构成其句子嵌入的加权线性组合,其中权重由学习得到的解释概率决定。
  • 通过在正负类别得分上使用Softmax层,句子级卷积网络估计每个句子为解释的概率。
  • 每个句子对最终文档表示的贡献根据其预测的解释概率进行缩放,从而突出支持性句子。
  • 通过在加权句子表示上使用全连接层进行最终文档分类,采用交叉熵损失进行端到端训练。
  • 模型同时使用文档级标签和句子级解释标注进行训练,采用联合目标函数,以同时鼓励正确分类和准确的解释预测。
  • 该架构在Theano和Keras中实现,代码已公开,便于复现。

实验结果

研究问题

  • RQ1将人工标注的解释集成到深度神经网络中,是否能够使文本分类性能超越标准CNN?
  • RQ2建模句子级解释概率是否能带来更好的泛化能力,尤其是在长文档中?
  • RQ3神经网络模型是否能够通过解释提取,为预测提供有意义且人类可解释的解释?
  • RQ4RA-CNN的性能与强基线模型(包括基于注意力的模型和带解释监督的SVM)相比如何?
  • RQ5该模型在不同文档长度和领域下,是否在多样化的文本分类任务中均保持一致的性能提升?

主要发现

  • 在RoB数据集上,RA-CNN取得了90.43%的当前最优准确率,显著优于次佳基线RA-SVM的88.89%。
  • 在电影评论数据集上,RA-CNN达到90.43%的准确率,超越次佳模型AT-CNN的86.69%。
  • 在所有五个评估数据集上,RA-CNN均一致超越所有基线模型,包括普通CNN、Doc-CNN、AT-CNN以及多种SVM变体。
  • 该模型表明,基于解释的注意力机制在长文档中能带来更大的性能增益,因为长文档中句子重要性差异显著。
  • RA-CNN提供了有意义且与上下文相关的解释,直接支持分类决策,例如在低风险偏见分类中,'该研究为双盲进行'这一句被识别为关键支持性解释。
  • 通过定性分析验证了模型的可解释性,显示高分解释与人工标注的支持性句子高度一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。