[论文解读] Explaining Question Answering Models through Text Generation
该论文提出一个生成器–分类器的问答模型,其中基于语言模型的生成器输出文本假设,供分类器用来选择答案,从而在不牺牲竞争性性能的前提下实现对LM所用知识的可解释性。
Large pre-trained language models (LMs) have been shown to perform surprisingly well when fine-tuned on tasks that require commonsense and world knowledge. However, in end-to-end architectures, it is difficult to explain what is the knowledge in the LM that allows it to make a correct prediction. In this work, we propose a model for multi-choice question answering, where a LM-based generator generates a textual hypothesis that is later used by a classifier to answer the question. The hypothesis provides a window into the information used by the fine-tuned LM that can be inspected by humans. A key challenge in this setup is how to constrain the model to generate hypotheses that are meaningful to humans. We tackle this by (a) joint training with a simple similarity classifier that encourages meaningful hypotheses, and (b) by adding loss functions that encourage natural text without repetitions. We show on several tasks that our model reaches performance that is comparable to end-to-end architectures, while producing hypotheses that elucidate the knowledge used by the LM for answering the question.
研究动机与目标
- 研究可解释的基于语言模型的多选问答模型,以揭示用于回答问题的知识。
- 开发一个在问题条件下输出人类可解释的文本假设的生成器。
- 训练一个依赖于生成假设的分类器,并对假设进行有意义、自然的约束。
提出的方法
- 使用经预训练的自回归语言模型(GPT-2 或 XLNet)作为生成器,从问题生成文本假设。
- 将生成器与一个分类器结合,该分类器使用问题、假设和答案选项来预测正确答案。
- 使用直通式Gumbel-Softmax来解决离散生成的不可微问题,以实现端到端训练。
- 引入一个基于词嵌入的相似性分类器,以鼓励有意义的假设,并确保下游模型使用该假设。
- 联同训练一个更强的基于LM的分类器与相似性分类器,以确保假设对决策起到信息作用。
- 应用额外的可解释性机制,如KL-散度正则化、重复惩罚和Top-K解码,以提高假设质量和多样性。
实验结果
研究问题
- RQ1在问答任务中,语言模型实际用于回答问题的知识有哪些?
- RQ2我们能否生成反映LM内部知识的人类可解释文本假设,并仍然实现具有竞争力的QA性能?
- RQ3训练目标和解码策略如何影响生成假设的有用性和可解释性?
- RQ4联合训练和辅助损失是否防止分类器忽略生成的假设?
- RQ5该方法是否能推广到其他QA领域或零-shot迁移?
主要发现
- 提出的生成器–分类器结构在CSQA上实现了与端到端模型相当的QA性能,并表现出对QASC的零样本迁移能力。
- 生成的假设为LM知识提供一个窗口;它们可以揭示缺失的知识、语义错误,以及假设如何影响预测。
- 一个简单的相似性分类器鼓励有意义的假设,并有助于确保基于LM的分类器在预测时利用假设。
- 与基于LM的分类器联合训练能保持对假设的依赖性,而仅依赖相似性分类器可能导致预测忽略假设。
- Top-K ST解码在弱监督生成器中往往达到最佳QA准确性,同时提供多样且可人类解释的假设;过强的目标压力可能降低准确性但提升自然性。
- 人工评估显示一个权衡:为QA优化的假设更“不自然”一些,而更自然的假设可能略微降低准确性但提高可解释性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。