[논문 리뷰] Evaluating Commonsense in Pre-trained Language Models
이 논문은 GPT, BERT, XLNet, RoBERTa와 같은 사전 훈련된 언어 모델에서 공통 지식을 평가하기 위해 일곱 가지 다양한 벤치마크를 사용하여, 퍼즐러피티 점수를 통해 의미적으로 타당한 문장과 타당하지 않은 문장 간의 구분 능력을 측정한다. 주요 발견은 언어 모델링 목적이 공통 지식 이해를 향상시키지만, 다단계 추론에서는 여전히 실패하고 표면적 수준의 추론에 의존하고 있음을 드러내며, 관련 논리가 있는 이중 테스트 케이스에서 일관성 없는 예측을 보인다.
Contextualized representations trained over large raw text data have given remarkable improvements for NLP tasks including question answering and reading comprehension. There have been works showing that syntactic, semantic and word sense knowledge are contained in such representations, which explains why they benefit such tasks. However, relatively little work has been done investigating commonsense knowledge contained in contextualized representations, which is crucial for human question answering and reading comprehension. We study the commonsense ability of GPT, BERT, XLNet, and RoBERTa by testing them on seven challenging benchmarks, finding that language modeling and its variants are effective objectives for promoting models' commonsense ability while bi-directional context and larger training set are bonuses. We additionally find that current models do poorly on tasks require more necessary inference steps. Finally, we test the robustness of models by making dual test cases, which are correlated so that the correct prediction of one sample should lead to correct prediction of the other. Interestingly, the models show confusion on these test cases, which suggests that they learn commonsense at the surface rather than the deep level. We release a test set, named CATs publicly, for future research.
연구 동기 및 목표
- 사전 훈련된 컨텍스트 기반 언어 모델에 내재된 공통 지식의 정도와 질을 체계적으로 평가하는 것.
- 공통 지식 추론을 지원하는 데 가장 효과적인 훈련 목표와 모델 아키텍처를 특정하는 것.
- 다단계 추론 단계가 필요한 추론 작업에서 모델이 견고하게 작동하는지 조사하는 것.
- 이중 테스트 케이스를 통해 모델이 깊은 의미적 이해를 하는지 표면적 신호에 의존하는지 평가하는 것.
제안 방법
- 예를 들어 WSC, SWAG, HellaSwag와 같은 일곱 가지 다양한 공통 지식 벤치마크를 일관된 형식으로 통합하여 퍼즐러피티 기반 평가를 수행.
- 모델 성능을 측정하기 위해 올바른 문장 쌍과 잘못된 문장 쌍 간의 퍼즐러피티를 비교하고, 결정 과정 분석을 위해 로그우도 비율을 사용.
- WSC, SM, ARCT에 대해 각 모델당 75개의 이중 테스트 인스턴스를 4가지 변형 유형(추가, 삭제, 교환, 교체)을 사용해 구성.
- 모델의 일관성은 원본 및 이중 인스턴스에서 동일한 예측(올바른/잘못된)을 내는지 확인하여 평가.
- qk 값에 의해 단어별 기여도를 시각화하여 모델의 신뢰도와 추론 패턴을 분석.
- 향후 연구를 위해 공개 테스트 세트인 CATs를 공개.
실험 결과
연구 질문
- RQ1GPT, BERT, XLNet, RoBERTa와 같은 사전 훈련된 언어 모델이 어느 정도 공통 지식을 갖추고 있는가?
- RQ2예를 들어 자동회귀 대비 양방향 훈련 목적이 공통 지식 추론에 어떤 영향을 미치는가?
- RQ3다단계 추론 단계가 필요한 추론 작업으로 일반화가 잘 되는가?
- RQ4논리적 구조는 유지하나 표면 형태만 변경된 악성 편경에 대해 모델은 얼마나 견고한가?
- RQ5공통 지식 판단을 내릴 때 모델은 얕은 신호에 의존하는가, 깊은 의미적 이해에 의존하는가?
주요 결과
- GPT와 RoBERTa의 언어 모델링 목표는 공통 지식 학습에 효과적이며, BERT와 RoBERTa와 같은 양방향 모델이 성능 향상을 보였다.
- 더 큰 훈련 세트와 양방향 컨텍스트는 공통 지식 추론에 측정 가능한 이점을 제공하지만, 견고한 성능을 확보하기에는 부족하다.
- 모델은 한 번 이상의 추론 단계가 필요한 작업에서 성능이 떨어지며, 복잡한 추론 능력에 한계가 있음을 시사한다.
- 이중 테스트 케이스에서의 일관성—하나에서 올바른 예측이 다른 하나에서도 올바른 예측을 이끌어내는 것—은 모든 모델에서 낮았으며, 오직 '교환' 방법에서만 무작위 수준 이상의 일관성이 나타났다.
- qk 값의 시각적 분석 결과, 특히 '추가', '삭제', '교체' 방법에서 모델이 변형에 혼란을 겪는 것으로 나타나, 깊은 의미적 이해보다 표면 패턴에 의존하고 있음을 시사한다.
- 가장 높은 성능을 보인 RoBERTa-large 모델은 '교체' 방법에서 단지 44%의 일관성만 보였으며, 인간 수준의 견고성과는 거리가 멀어 추론 깊이의 근본적인 격차가 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.