Skip to main content
QUICK REVIEW

[论文解读] Fine-grained Sentiment Analysis with Faithful Attention

Ruiqi Zhong, Steven Shao|arXiv (Cornell University)|Aug 19, 2019
Topic Modeling参考文献 17被引用 39
一句话总结

本论文训练一个情感关系抽取模型,使其注意力与人类推理一致,对注意力使用KL散度损失。这在基线上实现4–8点的增益,并显示少量的人类推理可以显著提升GFBF的性能和注意力信度,同时在MPQA上结果混合。

ABSTRACT

While the general task of textual sentiment classification has been widely studied, much less research looks specifically at sentiment between a specified source and target. To tackle this problem, we experimented with a state-of-the-art relation extraction model. Surprisingly, we found that despite reasonable performance, the model's attention was often systematically misaligned with the words that contribute to sentiment. Thus, we directly trained the model's attention with human rationales and improved our model performance by a robust 4~8 points on all tasks we defined on our data sets. We also present a rigorous analysis of the model's attention, both trained and untrained, using novel and intuitive metrics. Our results show that untrained attention does not provide faithful explanations; however, trained attention with concisely annotated human rationales not only increases performance, but also brings faithful explanations. Encouragingly, a small amount of annotated human rationales suffice to correct the attention in our task.

研究动机与目标

  • 激励在源和目标之间表达情感而非整体情感的目标情感分析。
  • 研究标准注意力是否与实际驱动情感预测的词一致。
  • 提出一种训练目标,通过KL散度损失使模型注意力与人类推理一致。
  • 评估少量的人类推理是否足以提升性能和注意力的信实性。
  • 开发度量注意力的信实性与似然性的指标(probes-needed 和 mass-needed)。

提出的方法

  • 在 Zhang 等人(2017)提出的 AttnLSTM 关系抽取框架上作为基线。
  • 引入基于KL散度的注意力损失 L_attn = KL(A || Ã),以使模型注意力 Ã 与人类推理注意力 A 对齐。
  • 可选地与多任务推理预测损失 L_r 进行比较,用于注意力监督。
  • 使用 MPQA 2.0 与 GFBF 数据集训练,采用欠采样以平衡非关系类(∅)。
  • 探索在不同比例的数据点标注有人工推理的训练(有限推理)。
  • 使用标准预测指标以及新颖的信实性/似然性指标(probes-needed 和 mass-needed)和基于LIME的解释检查进行评估。

实验结果

研究问题

  • RQ1用人类推理监督注意力是否比基线注意力机制提升关系抽取的性能?
  • RQ2人类推理监督的数量如何影响性能和注意力信实性?
  • RQ3训练后的注意力机制是真正可靠的解释,还是只是在人眼看来似乎可信?
  • RQ4推理监督的效果在 MPQA 和 GFBF 数据集之间是否存在差异?
  • RQ5新颖的信实性指标(probes-needed、mass-needed)是否能揭示训练与未训练模型在注意力行为上的差异?

主要发现

  • 用人类推理训练注意力在各任务上相较于未训练的注意力提供4–8点的绝对性能提升。
  • 少量标注的推理即可带来显著提升,随着推理数量增加,收益递减。
  • 在 GFBF 数据集上,训练后的注意力提供可信的解释(probes-needed 和 mass-needed 较低),而在 MPQA 上信实性并未一致实现。
  • 未训练的注意力可能信实性较差,有时会关注错误的词或将更多权重放在无影响的标记上。
  • 训练后的注意力在各数据集上优于 Pred-rationales(多任务推理)及其他基线。
  • 注意力的似然性(人类认为训练后注意力更可信)可能与信实性存在偏离,强调需要明确的信实性指标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。