Skip to main content
QUICK REVIEW

[논문 리뷰] Abductive Commonsense Reasoning

Chandra Bhagavatula, Ronan Le Bras|arXiv (Cornell University)|2019. 08. 15.
Topic Modeling참고 문헌 46인용 수 34
한 줄 요약

이 논문은 abductive commonsense 추론을 위한 ART 데이터셋을 소개하고 Abductive Natural Language Inference (alpha NLI) 및 Abductive Natural Language Generation (alpha NLG)을 정의합니다. 강력한 baseline을 평가하고 인간 성능과의 큰 차이를 보여주며 모델의 한계와 전이 학습 가능성을 분석합니다.

ABSTRACT

Abductive reasoning is inference to the most plausible explanation. For example, if Jenny finds her house in a mess when she returns from work, and remembers that she left a window open, she can hypothesize that a thief broke into her house and caused the mess, as the most plausible explanation. While abduction has long been considered to be at the core of how people interpret and read between the lines in natural language (Hobbs et al., 1988), there has been relatively little research in support of abductive natural language inference and generation. We present the first study that investigates the viability of language-based abductive reasoning. We introduce a challenge dataset, ART, that consists of over 20k commonsense narrative contexts and 200k explanations. Based on this dataset, we conceptualize two new tasks -- (i) Abductive NLI: a multiple-choice question answering task for choosing the more likely explanation, and (ii) Abductive NLG: a conditional generation task for explaining given observations in natural language. On Abductive NLI, the best model achieves 68.9% accuracy, well below human performance of 91.4%. On Abductive NLG, the current best language generators struggle even more, as they lack reasoning capabilities that are trivial for humans. Our analysis leads to new insights into the types of reasoning that deep pre-trained language models fail to perform--despite their strong performance on the related but more narrowly defined task of entailment NLI--pointing to interesting avenues for future research.

연구 동기 및 목표

  • 직관적으로 인간의 일반상식 해석의 핵심 측면으로서 abductive 추론을 동기화한다.
  • 가능한 설명을 가진 내러티브 맥락의 대규모 데이터셋(ART)을 만든다.
  • 두 가지 새로운 과제: abductive natural language inference (alpha NLI)와 generation (alpha NLG)을 정의한다.
  • 최신 NLI 모델과 언어 생성기를 사용해 강력한 baseline을 제공하고 벤치마크를 수립한다.

제안 방법

  • alpha NLI를 O1과 O2가 주어졌을 때 가장 그럴듯한 가설(H)을 선택하는 이진 다지선다 태스크로 정의한다.
  • O1, O2, H가 어떻게 관련되는지 포착하기 위해 확률적 모델(완전연결형, 선형 연결, 의존성)을 제안한다.
  • alpha NLG를 O1, O2를 조건으로 h+를 생성하는 조건 부 генераーション으로 모델링하되 COMeT/ATOMIC의 백그라운드 지식은 선택적으로 활용한다.
  • ART를 ROCStories 내러티브를 crowd가 제시한 그럴듯한/그르지 않은 가설과 대립적 필터링으로 아티팩트를 최소화하는 방식으로 구성한다.
  • alpha NLI에 대해 BERT 기반 분류기와 alpha NLG에 대해 GPT2 기반 생성기를 사용해 베이스라인을 평가하고 인간 베이스라인으로 분석한다.

실험 결과

연구 질문

  • RQ1언어 모델이 내러티브 관찰에 대해 abductive 추론을 수행해 단순 엔테일먼트 기반 베이스라인이나 우연에 비해 더 잘 수행하는가?
  • RQ2현재 사전학습 언어 모델이 abductive 추론에서 다양한 일반상식 범주 간 한계를 보이는가?
  • RQ3구조화된 일반상식 지식(COMeT/ATOMIC)을 도입하면 abductive 생성 및 추론이 개선되는가?
  • RQ4ART에서의 학습이 다른 일반상식 작업에 대한 전이 학습을 통해 성능을 개선하는가?

주요 결과

  • 최고의 alpha NLI baseline(BERT 기반 완전연결형)은 68.9% 정확도로 인간 91.4%에 훨씬 못 미친다.
  • 사람은 평가된 모든 범주에서 모델을 능가하며 ART에서 단순 엔테일먼트 베이스라인은 우연에 근접한 성능을 보인다.
  • Alpha NLG는 훨씬 더 어렵고, 최고 생성기도 held-out 가설에서 약 45%에 머무르는 반면 인간은 96%를 보인다.
  • 대립적 필터링 및 모델 구조(완전연결형 대 선형 체인)가 성능에 영향을 주며 강력한 베이스라인에 대해선 종종 완전연결형이 더 우수하다.
  • ART는 ART에서 사전 학습한 경우 작은 대상 데이터셋(WinoGrande, WSC, DPR, Hellaswag 등)에서도 전이 학습 이점을 제공한다(특히 대상 데이터가 제한될 때).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.