QUICK REVIEW

[논문 리뷰] CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge

Alon Talmor, Jonathan Herzig|arXiv (Cornell University)|2018. 11. 02.

Topic Modeling참고 문헌 41인용 수 310

한 줄 요약

CommonsenseQA는 ConceptNet에서 생성된 대규모 상식 QA 데이터셋을 도입하고, 여러 기준선을 평가하며 인간이 현재 모델보다 훨씬 우수하다는 것을 보여준다(최고 ~55.9% vs ~88.9% 인간).

ABSTRACT

When answering a question, people often draw upon their rich world knowledge in addition to the particular context. Recent work has focused primarily on answering questions given some relevant document or context, and required very little general background. To investigate question answering with prior knowledge, we present CommonsenseQA: a challenging new dataset for commonsense question answering. To capture common sense beyond associations, we extract from ConceptNet (Speer et al., 2017) multiple target concepts that have the same semantic relation to a single source concept. Crowd-workers are asked to author multiple-choice questions that mention the source concept and discriminate in turn between each of the target concepts. This encourages workers to create questions with complex semantics that often require prior knowledge. We create 12,247 questions through this procedure and demonstrate the difficulty of our task with a large number of strong baselines. Our best baseline is based on BERT-large (Devlin et al., 2018) and obtains 56% accuracy, well below human performance, which is 89%.

연구 동기 및 목표

맥락 너머의 배경 지식을 테스트하기 위한 상식 질문 응답 데이터셋을 소개한다.
ConceptNet에서 크라우드 워커를 사용하여 확장 가능한 질문 생성 방법을 제안한다.
최신 NLU 모델을 평가하고 기계와 인간 성능 간의 차이를 드러낸다.

제안 방법

관계가 공유되는 소스 개념과 세 개의 대상 개념을 선택하여 ConceptNet에서 질문 세트를 생성한다.
크라우드 워커는 세트당 세 개의 질문을 작성하고, 각 질문은 하나의 정답 대상 개념을 답으로 가지며 ConceptNet에서 가져온 두 개의 distractor와 한 개의 자체 생성 distractor를 포함한다.
별도의 워커로 품질을 검증하고, 최소 한 개의 정답 검증이 있는 질문만 보관한다.
정답 후보마다 상위 100개의 웹 스니펫을 가져와 텍스트 맥락을 부여하고 외부 맥락과 함께 RC 모델을 연구한다.
사전 학습된 LM 미세조정(BERT, GPT)을 포함한 광범위한 기준선, 전통적인 QA 모델, 웹 컨텍스트를 활용한 RC 모델 등을 평가하고, random split과 question-concept split에서의 정확도를 보고한다.

실험 결과

연구 질문

RQ1현대의 NLU 모델이 대규모 상식 QA 데이터셋에서 얼마나 잘 작동하는가?
RQ2ConceptNet에 grounding하고 다양한 distractor 전략을 적용하는 것이 표면적 신호를 넘어 난이도를 높이는가?
RQ3사전 학습된 언어 모델(BERT, GPT)의 상식 추론 작업에서의 한계는 무엇인가?
RQ4웹 스니펫으로의 grounding이 상식 문제에서 모델 성능에 어떤 영향을 미치는가?

주요 결과

모델	랜덤 분할 정확도	SANITY	질문-개념 분할 정확도	SANITY
BERT-large	55.9	92.3	63.6	93.2
GPT	45.5	87.2	55.5	88.9
BiDAF++	32.0	71.0	38.4	72.0

12,247개의 상식 질문이 수집되었고 인간의 정확도가 높은 편임(~88.9%).
최고 모델(BERT-large)의 무작위 분할에서의 정확도는 55.9%에 이르며 인간 성능에 훨씬 미치지 못한다.
GPT 및 다른 기준선은 BERT-large에 비해 성능이 떨어지며, 웹-컨텍스트 BiDAF++의 이득은 제한적이다.
SANITY distractor 제어는 어려운 distractor의 중요성을 보여준다.
학습 곡선은 더 큰 데이터에서도 이익이 제한적이며, 100k 예시에서도 BERT-large의 정확도는 약 75%로 인간보다 여전히 낮다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.