QUICK REVIEW

[논문 리뷰] How Additional Knowledge can Improve Natural Language Commonsense Question Answering?

Arindam Mitra, Pratyay Banerjee|arXiv (Cornell University)|2019. 09. 19.

Topic Modeling참고 문헌 29인용 수 32

한 줄 요약

본 논문은 외부 일반상식 지식을 통합하는 것이 BERT/RoBERTa를 활용한 다지선다형 QA를 어떻게 향상시키는지 연구하고, 네 가지 지식 주입 모델과 세 가지 지식 전략을 제시하며, aNLI, PIQA, SocialIQA 및 합성 PFQA 데이터셋에서 향상된 성과를 보임을 보인다.

ABSTRACT

Recently several datasets have been proposed to encourage research in Question Answering domains where commonsense knowledge is expected to play an important role. Recent language models such as ROBERTA, BERT and GPT that have been pre-trained on Wikipedia articles and books have shown reasonable performance with little fine-tuning on several such Multiple Choice Question-Answering (MCQ) datasets. Our goal in this work is to develop methods to incorporate additional (commonsense) knowledge into language model-based approaches for better question-answering in such domains. In this work, we first categorize external knowledge sources, and show performance does improve on using such sources. We then explore three different strategies for knowledge incorporation and four different models for question-answering using external commonsense knowledge. We analyze our predictions to explore the scope of further improvements.

연구 동기 및 목표

사전 학습만으로는 한계를 보이는 QA를 향상시키기 위해 외부 일반상식 지식의 활용을 촉진한다.
외부 지식 원천을 도출 방식과 Commonsense QA 태스크와의 관련성에 따라 분류한다.
BERT/RoBERTa 프레임워크 내에서 네 가지 지식 주입 모델을 제안하고 비교한다.
다양한 데이터셋(aNLI, PIQA, SocialIQA)과 합성 PFQA 데이터셋에서 지식 주입을 평가한다.

제안 방법

지식 원천을 평가 기준으로 Directly Derived, Partially Derived, Relevant로 분류한다.
Information Gain과 Spacy 유사도에 의한 재정렬을 사용하여 Elasticsearch로 지식을 인덱싱하고 검색한다.
세 가지 전략으로 BERT/RoBERTa를 미세조정한다: Revision(KB전용 사전학습), Open-Book(사례별 KB 부분집합), 그리고 둘 다(Revision + Open-Book).
지식을 융합하기 위한 네 가지 모델을 도입한다: Concat, Parallel-Max, Simple Sum, Weighted Sum.
Open-Book 하에서 네 가지 지식 융합 변형을 구현하고(Weighted Sum의 경우 두 가지 변형 포함) 정답 점수를 산출한다.
지식 문장 간의 암기와 다중 추론을 테스트하기 위해 합성 PFQA 데이터셋을 생성하고 평가한다.

실험 결과

연구 질문

RQ1외부 지식의 도입이 일반지식 데이터셋의 MCQ QA 성능을 향상시키는가?
RQ2어떤 지식 원천 범주(Directly Derived, Partially Derived, Relevant)가 QA 성능에 가장 유익한가?
RQ3네 가지 지식 주입 모델 중 어떤 모델이 데이터셋 전체에서 retrieved knowledge를 가장 잘 활용하는가?
RQ4Revision, Open-Book, 그리고 결합 전략은 각 태스크에서 얼마나 효과적인가?

주요 결과

지식 주입은 데이터셋 전반에서 성능을 향상시키며, Open-Book 및 Revision 전략 모두 유익하고, 결합 전략이 종종 최상의 결과를 낸다.
Weighted Sum은 전반적으로 가장 강력한 지식 융합 모델로, 여러 지식 단락의 가중치를 유연하게 조정할 수 있다.
PIQA와 aNLI는 더 큰 지식 세트로부터 이익을 얻지만, 지식이 너무 많으면 노이즈나 불일치로 인해 aNLI가 악화될 수 있다.
RoBERTa는 일부 경우 지식에서 더 큰 이득을 얻고, BERT는 개선을 보이지만 일부 설정에서 retrieved knowledge에 의해 주의가 산만해질 수 있다.
SocialIQA와 PFQA는 이점이 있지만 인간 정확도에는 미치지 못해, 외부 지식 접근법의 한계를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.