Skip to main content
QUICK REVIEW

[논문 리뷰] e-SNLI: Natural Language Inference with Natural Language Explanations

Oana-Maria Camburu, Tim Rocktäschel|arXiv (Cornell University)|2018. 12. 04.
Topic Modeling인용 수 282
한 줄 요약

이 논문은 SNLI를 자연어 설명(e-SNLI)로 확장하고 설명을 모델 학습, 정당화 생성, 보편 문장 표현 개선, 도메인 외 NLI 데이터셋으로의 이전에 사용하는 방법을 보여준다.

ABSTRACT

In order for machine learning to garner widespread public adoption, models must be able to provide interpretable and robust explanations for their decisions, as well as learn from human-provided explanations at train time. In this work, we extend the Stanford Natural Language Inference dataset with an additional layer of human-annotated natural language explanations of the entailment relations. We further implement models that incorporate these explanations into their training process and output them at test time. We show how our corpus of explanations, which we call e-SNLI, can be used for various goals, such as obtaining full sentence justifications of a model's decisions, improving universal sentence representations and transferring to out-of-domain NLI datasets. Our dataset thus opens up a range of research directions for using natural language explanations, both for improving models and for asserting their trust.

연구 동기 및 목표

  • 자연어 자유형 설명의 사용이 모델의 해석 가능성과 강인성을 향상시키는 동기를 제공한다.
  • SNLI 라벨에 정렬된 대형 설명 코퍼스(e-SNLI)를 생성한다.
  • 설명은 학습 중 문장 표현을 향상시키고 새로운 도메인으로의 전이가 가능하도록 하는 방법을 조사한다.

제안 방법

  • 제약된 프롬프트와 2단계 주석으로 SNLI premises–hypotheses 쌍에 대한 대규모 crowd-sourced 설명 코퍼스를 수집한다.
  • 설명을 InferSent 프레임워크에 설명 디코더를 확장하여 뉴럴 모델에 통합한다.
  • 모델이 레이블을 예측하고 설명을 생성하는(PredictAndExplain) 것과 먼저 설명을 생성한 다음 레이블을 예측하는(ExplainThenPredict) 방법을 학습시킨다.
  • 전이 작업(SentEval)을 통해 설명이 보편 문장 표현을 개선하는지 평가한다.
  • 특정 도메인 밖 NLI 데이터셋으로의 파인튜닝 없이 SICK-E 및 MultiNLI로의 교차 도메인 전이를 평가한다.

실험 결과

연구 질문

  • RQ1자연어 자유형 설명을 SNLI 쌍에 대해 안정적으로 수집할 수 있는가?
  • RQ2설명이 레이블 예측과 문장 표현을 개선하는 추가 감독 신호를 제공하는가?
  • RQ3모델이 자신의 예측을 정당화하는 일관된 설명을 생성할 수 있는가?
  • RQ4설명이 도메인 외 NLI 데이터셋으로의 전이를 더 잘 돕는가?

주요 결과

  • 설명 기반 모델은 예측 레이블에 조건화된 정당화를 생성할 수 있으며 레이블 정확도 손실 없이 작동한다(e-InferSent의 테스트 정확도는 83.96%이며 baseline은 84.01%).
  • 설명 디코더는 PredictAndExplain 설정에서 테스트 세트의 perplexity 10.58 및 BLEU 22.40의 합리적인 설명을 생성할 수 있다.
  • ExplainThenPredict와 주의(attention)를 사용하면 수동 하위집합에서 64.27%의 정답 설명 등 품질이 더 높은 설명을 생성하지만 레이블 정확도는 다소 하락(81.71%)한다.
  • 설명을 사용한 학습은 InferSent baseline 대비 여러 지표에서 다운스트림 작업에서 보편 문장 표현을 향상시킨다(여러 작업에서 유의미한 이득이 나타난다).
  • 파인튜닝 없이 SICK-E 및 MultiNLI로의 직접 전이는 작은 정확도 변화가 나타나며, 설명은 도메인 외 라벨 정확도에서 큰 이득보다는 모델 동작에 대한 정성적 인사이트를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.