[논문 리뷰] Align, Mask and Select: A Simple Method for Incorporating Commonsense Knowledge into Language Representation Models
본 논문은 AMS 기반 프리트레이닝으로 ConceptNet의 일반상식 지식을 BERT에 주입하고, MCQA 스타일의 프리트레이닝 데이터를 생성하여 일반 NLP 성능에 영향을 주지 않으면서 상식 벤치마크를 개선하는 방식을 제안한다.
The state-of-the-art pre-trained language representation models, such as Bidirectional Encoder Representations from Transformers (BERT), rarely incorporate commonsense knowledge or other knowledge explicitly. We propose a pre-training approach for incorporating commonsense knowledge into language representation models. We construct a commonsense-related multi-choice question answering dataset for pre-training a neural language representation model. The dataset is created automatically by our proposed "align, mask, and select" (AMS) method. We also investigate different pre-training tasks. Experimental results demonstrate that pre-training models using the proposed approach followed by fine-tuning achieve significant improvements over previous state-of-the-art models on two commonsense-related benchmarks, including CommonsenseQA and Winograd Schema Challenge. We also observe that fine-tuned models after the proposed pre-training approach maintain comparable performance on other NLP tasks, such as sentence classification and natural language inference tasks, compared to the original BERT models. These results verify that the proposed approach, while significantly improving commonsense-related NLP tasks, does not degrade the general language representation capabilities.
연구 동기 및 목표
- 일반적인 언어 이해력을 해치지 않으면서 프리트레인된 언어 모델에 상식 지식을 도입하는 동기를 제시한다.
- AMS를 제안하여 상식 KG에 정렬된 대규모 자연어 QA 데이터셋을 자동으로 구축한다.
- AMS 데이터로 BERT 변형을 프리트레이닝하고 상식 벤치마크 및 GLUE 태스크들에서 평가한다.
- 데이터 생성 및 프리트레이닝 태스크가 성능에 미치는 영향을 이해하기 위한 어블레이션을 제시한다.
제안 방법
- ConceptNet 삼중항을 영어 위키피디아 문장으로 필터링하고 정렬한다.
- 문장 내의 하나의 개념을 마스킹하여 MCQA 질문을 만들고 마스킹된 개념을 정답으로 본다.
- 의미상 혼동 가능한 선택지를 만들기 위해 같은 관계나 개념을 공유하는 관련 삼중항을 찾아 네 가지 오답을 선택한다.
- AMS 데이터셋을 사용하여 MCQA 태스크에서 후보 답에 softmax를 적용해 BERT_CS 모델을 프리트레이닝한다.
- 다운스트림 태스크에 미세조정하고 베이스라인 BERT 및 최첨단 결과와 비교한다.
- MCQA와 MLM 프리트레이닝 및 다양한 데이터 생성 전략 간의 어블레이션을 제공한다.
실험 결과
연구 질문
- RQ1AMS 기반 프리트레이닝이 CSQA와 WSC에서 상식 추론을 향상시킬 수 있는가?
- RQ2AMS 데이터를 도입하는 것이 GLUE 스타일의 일반 NLP 태스크에서 성능을 저하시키는가 아니면 보존하는가?
- RQ3어떤 프리트레이닝 태스크와 데이터 생성 전략이 언어 모델의 상식 추론에 가장 큰 도움이 되는가?
주요 결과
- BERT_CS 대형은 CSQA 테스트에서 62.2%를 달성하여 기본 BERT 대형(56.7%)과 CoS-E SOTA(58.2%)를 능가한다.
- BERT_CS 모델은 원래 BERT 모델과 비교해 GLUE 성능이 비슷하게 유지되어 일반 언어 표현 능력의 저하가 없음을 시사한다.
- AMS를 이용한 MCQA 기반 프리트레이닝은 CSQA 어블레이션에서 MLM 기반이나 무작위 오답 방식보다 우수하다.
- 어블레이션은 CSQA를 위한 프리트레이닝에 자연어 문장 입력이 삼중항 기반 입력에 비해 바람직하다는 것을 보여준다.
- WSC에서 BERT_CS 대형 + MCQA는 다수의 평가 지표에서 우수한 결과를 달성하여 MCQA 형식이 상식 태스크에 이익이 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.