[论文解读] WT5?! Training Text-to-Text Models to Explain their Predictions
本文的研究通过训练文本到文本模型,在预测的同时生成自然语言解释,从而实现最先进的可解释性,并在不改变训练损失的情况下实现半监督与跨领域迁移。
Neural networks have recently achieved human-level performance on various challenging natural language processing (NLP) tasks, but it is notoriously difficult to understand why a neural network produced a particular prediction. In this paper, we leverage the text-to-text framework proposed by Raffel et al.(2019) to train language models to output a natural text explanation alongside their prediction. Crucially, this requires no modifications to the loss function or training and decoding procedures -- we simply train the model to output the explanation after generating the (natural text) prediction. We show that this approach not only obtains state-of-the-art results on explainability benchmarks, but also permits learning from a limited set of labeled explanations and transferring rationalization abilities across datasets. To facilitate reproducibility and future work, we release our code use to train the models.
研究动机与目标
- 通过生成自然语言解释来提升神经预测的可解释性。
- 利用文本到文本框架来训练模型输出解释,而不改动训练或解码过程。
- 在多项 NLP 任务的可解释性基准上展示最先进的性能。
- 探索解释能力在半监督、跨领域和跨任务转移中的表现。
提出的方法
- 以 Text-to-Text Transfer Transformer (T5) 作为基模型,并对其进行微调以实现带自然语言解释的分类。
- 在输入前置 token explain 以在需要时在输出中生成相应的解释。
- 采用混合目标训练:包含解释的样本和不含解释的样本,以实现半监督学习。
- 可选地通过训练模型输出可与输入片段对齐的解释片段来支持抽取式解释。
- 使用 BLEU 评估抽象性解释,使用对标记化输入片段的 F1 评估抽取式解释,并辅以通过 Mechanical Turk 的人工评估。
实验结果
研究问题
- RQ1单一的文本到文本模型是否能够在不修改损失目标的情况下,为其预测生成连贯的自然语言解释?
- RQ2在不同数据集上,包含解释如何影响预测准确性和解释质量?
- RQ3在仅对部分数据提供解释的半监督学习中,效果如何?
- RQ4在没有明确解释注释的情况下,解释能力在跨领域和跨任务中的迁移程度如何?
主要发现
- WT5-11B 在各数据集上实现了高准确性和具有竞争力的解释质量,常与先前最先进水平在预测和解释方面相匹配或超越。
- 在多份数据集上,模型达到由人工评判衡量的解释质量的人类级别或超越人类的水平。
- 在有限标注解释的半监督设置下,解释生成仍然有效,特别是对抽象性解释。
- 跨领域迁移(如 MNLI、IMDb)产生具有高人工评定质量的可信解释,且分类性能强劲。
- 跨任务迁移(如从 e-SNLI 到 CoS-E)在合适的输入格式和束搜索解码的情况下是可行的,产生合乎情理的解释。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。