QUICK REVIEW

[論文レビュー] e-SNLI: Natural Language Inference with Natural Language Explanations

Oana-Maria Camburu, Tim Rocktäschel|arXiv (Cornell University)|Dec 4, 2018

Topic Modeling被引用数 282

ひとこと要約

本論文は SNLI を自然言語の説明（e-SNLI）で拡張し、説明を用いてモデルを訓練し、正当化を生成し、普遍的な文表現を改善し、ドメイン外の NLI データセットへ適用できることを示している。

ABSTRACT

In order for machine learning to garner widespread public adoption, models must be able to provide interpretable and robust explanations for their decisions, as well as learn from human-provided explanations at train time. In this work, we extend the Stanford Natural Language Inference dataset with an additional layer of human-annotated natural language explanations of the entailment relations. We further implement models that incorporate these explanations into their training process and output them at test time. We show how our corpus of explanations, which we call e-SNLI, can be used for various goals, such as obtaining full sentence justifications of a model's decisions, improving universal sentence representations and transferring to out-of-domain NLI datasets. Our dataset thus opens up a range of research directions for using natural language explanations, both for improving models and for asserting their trust.

研究の動機と目的

モデルの解釈可能性と頑健性を向上させるために、自由形式の自然言語による説明の利用を動機づける。
SNLI ラベルに対応づけられた大規模な説明コーパス（e-SNLI）を作成する。
訓練中に説明を活用して文表現を強化し、新しいドメインへ転移する方法を調査する。

提案手法

制約付きプロンプトと二段階アノテーションを用いて、SNLI の前提–仮説ペアに対する大規模なクラウドソースの説明コーパスを収集する。
推論Sentフレームワークを説明デコーダで拡張し、ニューラルモデルに説明を組み込む。
ラベルを予測し説明を生成する（PredictAndExplain）と、最初に説明を生成してからラベルを予測する（ExplainThenPredict）という訓練を行う。
転送タスク（SentEval）を通じて説明が普遍的な文表現を向上させるか評価する。
ファインチューニングなしで SICK-E および MultiNLI へのクロスドメイン転送性能を評価する。

実験結果

リサーチクエスチョン

RQ1SNLI ペアについて自由形式の自然言語説明を信頼性高く収集できるか？
RQ2説明はラベル予測と文表現を改善する追加の監督信号を提供するか？
RQ3モデルは予測を正当化する一貫性のある説明を生成できるか？
RQ4説明はモデルのドメイン外 NLI データセットへの転移をより良く助けるか？

主な発見

説明を考慮したモデルは、予測ラベルに条件付けられた正当化を生成でき、ラベル精度を犠牲にしない（e-InferSent はベースラインの 84.01% に対して 83.96% のテスト精度を達成）。
説明デコーダは PredictAndExplain 設定のテストセットで困惑度 10.58、BLEU 22.40 の合理的な説明を生成できる。
ExplainThenPredict は注意機構を用いた高品質な説明を生み出す（手動サブセットで 64.27% 正解の説明）一方でラベル精度の低下を伴う（81.71%）。
説明を用いた訓練は、複数の指標で InferSent ベースラインと比較して下流タスクで普遍的な文表現を改善する（e- InferSent は複数のタスクで有意な向上を示す）。
ファインチューニングなしの SICK-E および MultiNLI への直接転送は小さな精度変化を示し、説明はドメイン外のラベル精度の大幅な向上よりもモデルの挙動への定性的洞察を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。