QUICK REVIEW

[논문 리뷰] Teaching Pretrained Models with Commonsense Reasoning: A Preliminary KB-Based Approach

Shiyang Li, Jianshu Chen|arXiv (Cornell University)|2019. 09. 20.

Topic Modeling참고 문헌 21인용 수 18

한 줄 요약

이 논문은 구조화된 지식인 ConceptNet에서 유도된 16700만 개의 다중 선택 문제를 생성함으로써 사전 훈련된 언어 모델에 공공의 이성(reasoning)을 명시적으로 학습시키는 KB 기반 방법을 제안한다. 이러한 문제로 모델를 보완함으로써 공공의 이성 작업에서 성능이 크게 향상되며, 특히 소수의 예시(few-shot) 설정에서 최대 18%p의 절대적 향상이 이루어졌고, CommonsenseQA에서 이를 확인하였다.

ABSTRACT

Recently, pretrained language models (e.g., BERT) have achieved great success on many downstream natural language understanding tasks and exhibit a certain level of commonsense reasoning ability. However, their performance on commonsense tasks is still far from that of humans. As a preliminary attempt, we propose a simple yet effective method to teach pretrained models with commonsense reasoning by leveraging the structured knowledge in ConceptNet, the largest commonsense knowledge base (KB). Specifically, the structured knowledge in KB allows us to construct various logical forms, and then generate multiple-choice questions requiring commonsense logical reasoning. Experimental results demonstrate that, when refined on these training examples, the pretrained models consistently improve their performance on tasks that require commonsense reasoning, especially in the few-shot learning setting. Besides, we also perform analysis to understand which logical relations are more relevant to commonsense reasoning.

연구 동기 및 목표

사전 훈련된 언어 모델의 공공의 이성 능력을 명시적으로 향상시키는 것. 이는 자연어 이해(NLU) 작업에서의 성공에도 불구하고 현재 공공의 이성 능력이 여전히 부족하기 때문이다.
비정형 텍스트에서 공공의 이성에 대한 직접적인 지도 학습이 부족한 문제를 해결하기 위해 ConceptNet의 구조화된 지식을 활용하는 것.
논리적 공공의 이성 요구하는 다양한 자연어 다중 선택 문제를 자동으로 생성할 수 있는 확장 가능한 방법 개발.
이러한 합성 질문으로 사전 훈련된 모델를 보완함으로써 최종 공공의 이성 벤치마크에서 성능 향상 여부 평가.
지식 기반에서 인간과 유사한 공공의 이성에 가장 관련성이 높은 논리적 관계는 무엇인지 규명하는 것.

제안 방법

논리적 추론 패턴을 생성하기 위해 ConceptNet의 서브그래프를 (A →R₁ B →R₂ C) 형태로 샘플링하는 것.
추론 작업을 엔티티 B 중심으로 정의하기 위해 두 집합 R₁ = {X : A →R₁ X}과 R₂ = {X : X →R₂ C}을 구성하는 것.
논리적 형태를 자연어 다중 선택 질문으로 변환하기 위해 텍스트 템플릿을 사용하며, 정답 하나와 오답 세 개를 포함한다.
다양한 오답을 생성하기 위해 무작위 샘플링 및 가장 가까운 이웃 샘플링과 같은 후보 답변 샘플링 전략을 활용하는 것.
생성된 합성 데이터셋으로 사전 훈련된 모델(예: BERT, XLNet)을 보완하여 공공의 이성 능력을 향상시키는 것.
다양한 논리적 형태와 관계 유형이 모델 성능에 미치는 영향을 체계적으로 평가하는 것.

실험 결과

연구 질문

RQ1ConceptNet의 구조화된 지식을 활용해 합성 학습 데이터를 효과적으로 생성할 수 있으며, 이로 인해 사전 훈련된 모델의 공공의 이성 능력 향상이 가능한가?
RQ2특히 데이터가 적은(소수의 예시) 상황에서, 지식 기반으로 생성된 다중 선택 질문으로 사전 훈련된 모델를 보완할 경우 성능은 어떻게 변화하는가?
RQ3ConceptNet의 어떤 종류의 논리적 관계가 공공의 이성에 가장 관련성이 높은가? 이러한 관계들은 모델 성능 향상에 더 기여하는가?
RQ4모델 아키텍처와 데이터셋에 관계없이 보완으로 인한 성능 향상이 견고한가?
RQ5후보 답변 샘플링 전략의 차이에 따라 이 방법의 성능 민감도는 어떠한가?

주요 결과

생성된 합성 데이터셋으로 BERT를 보완한 결과, CommonsenseQA에서 소수의 예시 학습 설정에서 18%p의 절대적 성능 향상이 이루어졌으며, 전체 훈련 데이터의 16.4%만 사용해도 정확도가 53.43%에 도달하였다.
완전한 미세조정 데이터로도 2%p의 정확도 향상을 달성하여, 다양한 훈련 데이터 스케일에서 일관된 향상이 있음을 보여주었다.
단순한 논리적 형태 3종(#1, #2, #5)—예: 단일 관계 및 논리적 AND 추론—으로만 보완한 모델가 거의 완전한 성능을 달성하여 이 형태들이 공공의 이성과 매우 관련성이 높다는 것을 시사한다.
복합적 조합이나 부정을 포함하는 논리적 형태(#4, #7, #9)는 성능 향상에 거의 기여하지 않아, 직관적인 공공의 이성 추론과는 맞지 않는다는 것을 시사한다.
후보 답변 샘플링 전략의 유형에 관계없이 성능 변동이 미미하여, 이 방법이 다양한 전략에 대해 견고함을 보였다.
성능 향상은 더 큰 모델로도 이식 가능했으며, 아블레이션 연구를 통해 RoBERTa와 XLNet에서도 유사한 향상이 관찰되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.