Skip to main content
QUICK REVIEW

[논문 리뷰] DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs

Dheeru Dua, Yizhong Wang|arXiv (Cornell University)|2019. 03. 01.
Natural Language Processing Techniques인용 수 178
한 줄 요약

DROP은 문단 내용에 대해 이산적 숫자 및 논리 추론을 요구하는 복잡한 독해 벤치마크이며, 최첨단 모델은 인간을 크게 능가하지 못해 신경-기호적 방법의 필요성을 제시한다.

ABSTRACT

Reading comprehension has recently seen rapid progress, with systems matching humans on the most popular datasets for the task. However, a large body of work has highlighted the brittleness of these systems, showing that there is much work left to be done. We introduce a new English reading comprehension benchmark, DROP, which requires Discrete Reasoning Over the content of Paragraphs. In this crowdsourced, adversarially-created, 96k-question benchmark, a system must resolve references in a question, perhaps to multiple input positions, and perform discrete operations over them (such as addition, counting, or sorting). These operations require a much more comprehensive understanding of the content of paragraphs than what was necessary for prior datasets. We apply state-of-the-art methods from both the reading comprehension and semantic parsing literature on this dataset and show that the best systems only achieve 32.7% F1 on our generalized accuracy metric, while expert human performance is 96.0%. We additionally present a new model that combines reading comprehension methods with simple numerical reasoning to achieve 47.0% F1.

연구 동기 및 목표

  • 문단 내용에 대한 이산적 추론을 평가하는 크라우드소싱 벤치마크인 DROP를 도입한다.
  • 신경 표현과 이산적 기호 추론을 결합한 모델로의 발전을 추진한다.
  • 데이터셋의 속성을 특징짓고 수치 인식 중심 작업으로 기존 QA 시스템에 도전한다.

제안 방법

  • 이해관계자 대상으로 위키피디아 구절에서 96.6k개의 질문을 크라우드소싱으로 작성하되 이산적 추론을 필요로 하도록 적대적 타깃팅.
  • 관계-인자 구조의 표형 표현과 규칙 기반 논리 형식 언어를 사용하는 의미론적 파싱 베이스라인.
  • 비스팬(non-span) 답변을 평가하도록 적응된 SQuAD형 독해 베이스라인들(BiDAF, QANet, QANet+ELMo, BERT).
  • 수치 인식 QA 모델 NAQANet 도입. QANet에 숫자에 대한 계산 및 간단한 산술 연산을 추가한 것.
  • 정답을 생성하는 실행들을 주변화하는 약하게 지도된 학습으로 신경-기호적 통합을 가능하게 한다.

실험 결과

연구 질문

  • RQ1이산적 추론이 필요한 문단 수준 QA가 기존 QA 데이터셋에 비해 얼마나 어려운가?
  • RQ2신경 모델에 기호적 수치 추론을 보강하여 문단의 수 세기 및 산술을 다룰 수 있는가?
  • RQ3DROP의 문단 기반 질문에 적용될 때 의미론적 파싱 접근법의 주요 도전과제는 무엇인가?
  • RQ4DROP에서 인간 전문가와 현재 모델 간의 성능 격차는 어느 정도이며 어떤 현상이 오류를 주도하는가?

주요 결과

  • 최고의 베이스라인(BERT)은 DROP 테스트에서 32.70 F1을 달성하여 인간 96.42 F1에 훨씬 못 미치며 데이터셋의 난이도를 입증한다.
  • NAQANet은 완전한 산술 기능을 갖춘 경우 테스트 세트에서 47.01 F1을 달성하여 이전 베이스라인에 비해 상당히 개선되었지만 여전히 인간 성능 아래이다.
  • 의미론적 파싱 베이스라인은 정보 추출 품질과 약하게 지도된 학습 의존으로 인해 성능이 저조하며, 유효한 논리식으로 도출되는 문제의 일부만 존재한다.
  • 개수 세기 및 산술 관련 질문이 모델 오류의 주된 원인이며, NAQANet 오류 분석에서 산술이 분석된 오류의 51%에 기여한다.
  • 숫자 추론(Add/Sub)을 통합한 완전한 모델 변형이 실험된 접근들 중 가장 큰 향상을 보인다.
  • 휴리스틱 베이스라인은 거의 무의미한 성능을 보여 데이터셋 편향이 제한적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.