Skip to main content
QUICK REVIEW

[论文解读] Does it care what you asked? Understanding Importance of Verbs in Deep Learning QA System

Barbara Rychalska, Dominika Basaj|arXiv (Cornell University)|Sep 11, 2018
Topic Modeling参考文献 9被引用 7
一句话总结

本文通过使用 WordNet 反义词对问题中的动词进行否定,研究了动词在深度学习问答(QA)系统中的作用。尽管语义发生了重大变化,90.5% 的情况下 QA 系统的预测结果保持不变,揭示了由于数据集偏差以及模型注意力机制更倾向于命名实体而非动词,动词的影响微乎其微。

ABSTRACT

In this paper we present the results of an investigation of the importance of verbs in a deep learning QA system trained on SQuAD dataset. We show that main verbs in questions carry little influence on the decisions made by the system - in over 90% of researched cases swapping verbs for their antonyms did not change system decision. We track this phenomenon down to the insides of the net, analyzing the mechanism of self-attention and values contained in hidden layers of RNN. Finally, we recognize the characteristics of the SQuAD dataset as the source of the problem. Our work refers to the recently popular topic of adversarial examples in NLP, combined with investigating deep net structure.

研究动机与目标

  • 研究动词语义对深度学习 QA 系统决策过程的影响。
  • 检验动词语义否定是否在语义发生显著变化的情况下改变系统预测。
  • 分析基于 RNN 的 QA 模型中注意力机制和隐藏表征的内部机制。
  • 诊断 SQuAD 数据集中的结构偏差,这些偏差可能导致模型忽略动词语义。

提出的方法

  • 利用 WordNet 将主句动词替换为其反义词,生成对抗性问题,同时保持句法结构不变。
  • 在 SQuAD 开发集上测量原始问题与否定问题之间模型输出的一致性。
  • 分析问题自注意力得分,评估词的重要性,重点关注词性。
  • 可视化并比较 LSTM 层间隐藏状态的方差与熵,以追踪语义编码过程。
  • 使用统计检验(Kolmogorov-Smirnov 检验)评估不同词性类别间注意力得分差异的显著性。
  • 将注意力得分与隐藏层统计量(方差、熵)相关联,以识别编码模式。

实验结果

研究问题

  • RQ1在 QA 问题中否定动词的语义,会对模型预测的答案产生何种影响?
  • RQ2QA 模型中的注意力机制在多大程度上优先关注动词而非其他词性?
  • RQ3语义重要性与表征方差如何在 RNN 的隐藏层中被编码?
  • RQ4SQuAD 数据集的哪些结构特征导致模型对动词语义不敏感?

主要发现

  • 在 90.5% 的情况下,问题中动词的否定并未改变模型的预测答案,尽管语义发生了重大变化。
  • 原始问题与否定问题之间的平均决策置信度(softmax 概率)几乎完全相同(0.61 vs. 0.60)。
  • 动词的自注意力得分显著低于名词(动词均值 2.32,名词均值 5.43),表明模型对动词的关注度极低。
  • Kolmogorov-Smirnov 检验证实,动词与名词的注意力得分分布存在统计学上的显著差异(p < 0.001)。
  • LSTM 隐藏层的方差显示,名词(尤其是命名实体)的方差高于动词,且方差与注意力得分之间存在 0.85 的皮尔逊相关系数。
  • 隐藏状态熵与注意力得分之间存在强烈的负相关性(r = -0.91),表明语义重要性在神经网络早期即被编码。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。