QUICK REVIEW

[논문 리뷰] DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs

Dheeru Dua, Yizhong Wang|arXiv (Cornell University)|2019. 03. 01.

Natural Language Processing Techniques인용 수 178

한 줄 요약

DROP은 문단 내용에 대해 이산적 숫자 및 논리 추론을 요구하는 복잡한 독해 벤치마크이며, 최첨단 모델은 인간을 크게 능가하지 못해 신경-기호적 방법의 필요성을 제시한다.

ABSTRACT

Reading comprehension has recently seen rapid progress, with systems matching humans on the most popular datasets for the task. However, a large body of work has highlighted the brittleness of these systems, showing that there is much work left to be done. We introduce a new English reading comprehension benchmark, DROP, which requires Discrete Reasoning Over the content of Paragraphs. In this crowdsourced, adversarially-created, 96k-question benchmark, a system must resolve references in a question, perhaps to multiple input positions, and perform discrete operations over them (such as addition, counting, or sorting). These operations require a much more comprehensive understanding of the content of paragraphs than what was necessary for prior datasets. We apply state-of-the-art methods from both the reading comprehension and semantic parsing literature on this dataset and show that the best systems only achieve 32.7% F1 on our generalized accuracy metric, while expert human performance is 96.0%. We additionally present a new model that combines reading comprehension methods with simple numerical reasoning to achieve 47.0% F1.

연구 동기 및 목표

문단 내용에 대한 이산적 추론을 평가하는 크라우드소싱 벤치마크인 DROP를 도입한다.
신경 표현과 이산적 기호 추론을 결합한 모델로의 발전을 추진한다.
데이터셋의 속성을 특징짓고 수치 인식 중심 작업으로 기존 QA 시스템에 도전한다.

제안 방법

이해관계자 대상으로 위키피디아 구절에서 96.6k개의 질문을 크라우드소싱으로 작성하되 이산적 추론을 필요로 하도록 적대적 타깃팅.
관계-인자 구조의 표형 표현과 규칙 기반 논리 형식 언어를 사용하는 의미론적 파싱 베이스라인.
비스팬(non-span) 답변을 평가하도록 적응된 SQuAD형 독해 베이스라인들(BiDAF, QANet, QANet+ELMo, BERT).
수치 인식 QA 모델 NAQANet 도입. QANet에 숫자에 대한 계산 및 간단한 산술 연산을 추가한 것.
정답을 생성하는 실행들을 주변화하는 약하게 지도된 학습으로 신경-기호적 통합을 가능하게 한다.

실험 결과

연구 질문

RQ1이산적 추론이 필요한 문단 수준 QA가 기존 QA 데이터셋에 비해 얼마나 어려운가?
RQ2신경 모델에 기호적 수치 추론을 보강하여 문단의 수 세기 및 산술을 다룰 수 있는가?
RQ3DROP의 문단 기반 질문에 적용될 때 의미론적 파싱 접근법의 주요 도전과제는 무엇인가?
RQ4DROP에서 인간 전문가와 현재 모델 간의 성능 격차는 어느 정도이며 어떤 현상이 오류를 주도하는가?

주요 결과

최고의 베이스라인(BERT)은 DROP 테스트에서 32.70 F1을 달성하여 인간 96.42 F1에 훨씬 못 미치며 데이터셋의 난이도를 입증한다.
NAQANet은 완전한 산술 기능을 갖춘 경우 테스트 세트에서 47.01 F1을 달성하여 이전 베이스라인에 비해 상당히 개선되었지만 여전히 인간 성능 아래이다.
의미론적 파싱 베이스라인은 정보 추출 품질과 약하게 지도된 학습 의존으로 인해 성능이 저조하며, 유효한 논리식으로 도출되는 문제의 일부만 존재한다.
개수 세기 및 산술 관련 질문이 모델 오류의 주된 원인이며, NAQANet 오류 분석에서 산술이 분석된 오류의 51%에 기여한다.
숫자 추론(Add/Sub)을 통합한 완전한 모델 변형이 실험된 접근들 중 가장 큰 향상을 보인다.
휴리스틱 베이스라인은 거의 무의미한 성능을 보여 데이터셋 편향이 제한적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.