QUICK REVIEW

[논문 리뷰] Know What You Don't Know: Unanswerable Questions for SQuAD

Pranav Rajpurkar, Robin Jia|arXiv (Cornell University)|2018. 06. 11.

Topic Modeling인용 수 211

한 줄 요약

이 논문은 SQuAD 2.0을 소개하며, SQuAD 1.1의 답변 가능한 질문과 53k개가 넘는 인간이 작성한 답변 불가 질문을 결합하여, 단락에 답이 뒷받침되지 않으면 모델이 abstain을 행하도록 강요한다.

ABSTRACT

Extractive reading comprehension systems can often locate the correct answer to a question in a context document, but they also tend to make unreliable guesses on questions for which the correct answer is not stated in the context. Existing datasets either focus exclusively on answerable questions, or use automatically generated unanswerable questions that are easy to identify. To address these weaknesses, we present SQuAD 2.0, the latest version of the Stanford Question Answering Dataset (SQuAD). SQuAD 2.0 combines existing SQuAD data with over 50,000 unanswerable questions written adversarially by crowdworkers to look similar to answerable ones. To do well on SQuAD 2.0, systems must not only answer questions when possible, but also determine when no answer is supported by the paragraph and abstain from answering. SQuAD 2.0 is a challenging natural language understanding task for existing models: a strong neural system that gets 86% F1 on SQuAD 1.1 achieves only 66% F1 on SQuAD 2.0.

연구 동기 및 목표

답이 불가능한 질문이 단락 속에서 초점이 되는 진정한 이해를 테스트하는 필요성을 촉진한다.
단락에 그럴듯한 답이 존재하는 관련 있는 정답 불가 질문들을 포함한 대규모의 고품질 데이터셋을 생성한다.
현재 모델을 평가하고 기계와 인간 성능 간의 차이를 보여주는 도전적인 벤치마크를 확립한다.
자동으로 생성된 네거티브가 인간이 작성한 적대적(대항) 정답 불가 문제들보다 모델에 더 쉬운 것을 입증한다.

제안 방법

동작성자들이 단락 안의 엔티티를 참조하고 그럴듯한 답이 있는 최대 다섯 개의 정답 불가 질문을 각 단락마다 작성한다.
SQuAD 1.1의 정답 가능 질문과 53,775개의 정답 불가 질문을 결합하여 SQuAD 2.0을 형성한다.
dev/test에서 대략 균형 잡힌 정답 가능/정답 불가 질문이 되도록 데이터를 train/dev/test로 분할한다; train은 양성 사례가 더 많다.
기존 모델(BiDAF-No-Answer, ELMo 여부에 따른 DocQA)을 평가하여 정답 불가를 예측하고 임계값 이상으로 보류하는지 확인한다.
자동으로 생성된 음수(TfIdf, RuleBased)와의 비교를 통해 난이도를 평가한다.
수작업 평가를 통해 인간의 성능과 Crowdworker의 유도자 타당성을 분석한다.

실험 결과

연구 질문

RQ1독해 모델이 단락이 질문에 대한 답을 수반하지 않는지를 판단할 수 있는가?
RQ2적대적 정답 불가 질문을 추가하는 것이 SQuAD 1.1과 비교하여 모델 성능에 어떤 영향을 미치는가?
RQ3인간이 작성한 정답 불가 질문이 자동으로 생성된 음수보다 더 어려운가?
RQ4그럴듯한 방해 요소들이 모델과 인간 모두를 효과적으로 오도하는가?

주요 결과

SQuAD 2.0은 최첨단 모델에게 SQuAD 1.1보다 여전히 상당히 더 어렵고(테스트에서 최고의 모델 ~66.3 F1, 인간 F1 89.5)
자동 음수(TfIdf/RuleBased)는 인간이 작성한 정답 불가보다 모델에 더 쉬워 dev/test에서 F1 차이가 더 큼
그럴듯하지만 잘못된 정답은 기계와 인간 모두의 오답 포인트의 약 절반을 차지하며, 방해 요소로서의 타당성을 입증
SQuAD 2.0 개발/테스트에서 인간의 정확도는 각각 89.0/89.5 F1이며, 모델 성능은 약 23포인트 차이로 뒤처짐(SQuAD 1.1 대비 격차 확대)
샘플링된 부정 예시 중 93%가 실제로 정답 불가로 확인되며 네거티브의 다양성은 부정 예시의 스펙트럼을 보여줌

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.