Skip to main content
QUICK REVIEW

[논문 리뷰] MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script Knowledge

Simon Ostermann, Ashutosh Modi|arXiv (Cornell University)|2018. 03. 14.
Topic Modeling참고 문헌 21인용 수 67
한 줄 요약

MCScript는 상식적 스크립트 지식이 필요하여 답해야 하는 내러티브와 질문의 큰 코퍼스를 제시하고, 일상적 상황과 SemEval 2018 참가를 통한 기계 독해 평가를 가능하게 한다. 약 27.4%의 질문은 스크립트 기반 추론이 필요하다.

ABSTRACT

We introduce a large dataset of narrative texts and questions about these texts, intended to be used in a machine comprehension task that requires reasoning using commonsense knowledge. Our dataset complements similar datasets in that we focus on stories about everyday activities, such as going to the movies or working in the garden, and that the questions require commonsense knowledge, or more specifically, script knowledge, to be answered. We show that our mode of data collection via crowdsourcing results in a substantial amount of such inference questions. The dataset forms the basis of a shared task on commonsense and script knowledge organized at SemEval 2018 and provides challenging test cases for the broader natural language understanding community.

연구 동기 및 목표

  • 명시적 상식 및 스크립트 지식을 활용한 기계 독해 평가 동기 부여
  • 대규모의 크라우드소싱 내러티브와 시나리오 기반 질문 데이터셋 구축
  • 검증 및 필터링을 통한 고품질 데이터 보장
  • 공유 태스크(SemEval 2018)에 적합한 외재적 평가 프레임워크 제공
  • 질문에 답하는 데 있어서 스크립트 지식의 역할 정량화

제안 방법

  • 시나리오 중심의 질문을 수집하여 텍스트 기반 질문을 지양하고 스크립트 기반 추론을 촉진
  • 약 2,100개의 텍스트에 대해 110개 시나리오의 아이 해설 내러티브 작성
  • 질문 14,074개를 범주(text-based, script-based, unknown, unfitting)로 크라우드소스하고, 각 질문에 3–5개의 선택지 제시
  • 내러티브를 선별하고 철자 검사, 대명사을 they/ theirs로 표준화하는 후처리 수행
  • 텍스트-질문 쌍당 정답 1개와 오답 1개를 다수결 및 어휘 정규화를 통해 선택
  • 데이터를 train(9,731개 질문, 1,470개 텍스트), dev(1,411개, 219개 텍스트), test(2,797개, 430개 텍스트)로 분리하고 테스트용으로 5개 시나리오 보류

실험 결과

연구 질문

  • RQ1MCScript 데이터셋의 얼마나 많은 부분이 상식 스크립트 지식을 필요로 하는가?
  • RQ2기초 모델과 신경망 모델이 텍스트 기반 질문 대비 스크립트 기반 질문에서 얼마나 잘 작동하는가?
  • RQ3질문 유형의 분포가 성능에 어떤 영향을 미치는가?
  • RQ4스크립트 지식을 외재적 독해 프레임워크에서 효과적으로 평가할 수 있는가?

주요 결과

  • 최종 데이터셋은 13,939개의 질문으로 구성되며 그중 3,827개(27.4%)가 상식 지식을 필요로 한다.
  • 사람의 주석자들은 98.2%의 사례에서 금본 표준과 일치하여 높은 신뢰성을 나타낸다.
  • Train/Dev/Test 분할: 9,731개의 질문, 1,470개의 텍스트(train), 1,411개의 질문, 219개의 텍스트(dev), 2,797개의 질문, 430개의 텍스트(test)
  • 기저선 단어 중첩 및 슬라이딩 윈도우 모델은 신경망 모델에 비해 성능이 떨어지고, 어텐티브 리더가 바이리니어 모델보다 약간 나은 경향(총합: 72.0% vs 70.2%).
  • 텍스트 기반 질문에서 어텐티브 리더는 70.9%(텍스트) 및 75.2%(일반상식), 총 72.0%; 텍스트 전용 질문에서는 여러 기저선의 결과가 낮다.
  • 모든 모델에서 예/아니오 형식의 질문에서 성능이 특히 저조하여 표면 텍스트를 넘어서는 더 정교한 추론이 필요함을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.