QUICK REVIEW

[논문 리뷰] Measuring and Improving Consistency in Pretrained Language Models

Yanai Elazar, Nora Kassner|arXiv (Cornell University)|2021. 02. 01.

Topic Modeling참고 문헌 77인용 수 32

한 줄 요약

이 논문은 ParaRel을 도입하여 paraphrase cloze 패턴을 통해 사전학습된 언어 모델(PLMs)의 일관성을 측정하고, 모델 전반에 걸친 광범위한 불일치를 발견하며, 이를 개선하기 위해 KL-divergence 기반의 일관성 손실을 제안한다.

ABSTRACT

Consistency of a model -- that is, the invariance of its behavior under meaning-preserving alternations in its input -- is a highly desirable property in natural language processing. In this paper we study the question: Are Pretrained Language Models (PLMs) consistent with respect to factual knowledge? To this end, we create ParaRel, a high-quality resource of cloze-style query English paraphrases. It contains a total of 328 paraphrases for 38 relations. Using ParaRel, we show that the consistency of all PLMs we experiment with is poor -- though with high variance between relations. Our analysis of the representational spaces of PLMs suggests that they have a poor structure and are currently not suitable for representing knowledge robustly. Finally, we propose a method for improving model consistency and experimentally demonstrate its effectiveness.

연구 동기 및 목표

의미를 보존하는 패러프레이즈 하에서 PLMs이 일관된 사실 예측을 유지하는지 평가한다.
ParaRel을 도입한다, 38개의 관계와 328개의 패턴으로 구성된 고품질의 패러프레이즈 기반 벤치마크.
BERT, RoBERTa, ALBERT 간의 지식 추출과 일관성을 평가한다.
보지 않은 관계에서 모델의 일관성을 개선하기 위한 일관성 손실을 제안하고 검증한다.

제안 방법

KB 객체에 대한 제한된 후보 집합을 갖춘 관계 r_i에 대해 데이터 삼중항 D_i와 패러프레이즈 패턴 P_i를 사용하는 일관성 프레임워크를 정의한다.
기본 패턴을 보강하고 LPAQA 패러프레이즈, SPIKE 유래 패턴, 전문가 큐레이션을 도입하여 ParaRel을 구성한다; 높은 평가자 간 일치도를 보장한다.
여러 PLM에서 일관성(Consistency), 지식(Accuracy), 그리고 결합 지표인 Consistent-Acc를 평가한다.
패턴별 출력 분포 간의 양방향 KL 발산을 바탕으로 한 일관성 손실을 MLM 손실과 결합하고, 관계별 배치로 학습하는 방식의 일관성 손실을 도입한다.

실험 결과

연구 질문

RQ1사실 질의의 패러프레이즈 유사 변형에 대해 PLM 동작이 불변인가?
RQ2ParaRel이 다양한 관계와 패턴에 걸친 일관성을 얼마나 잘 포착하는가?
RQ3전용 일관성 손실이 보지 않은 관계들 간의 패턴 간 합의를 개선할 수 있는가?

주요 결과

PLMs는 전반적으로 불일치가 높고 관계별 변동성이 큰 모습을 보인다.
이 설정에서 BERT 기반 모델은 일반적으로 RoBERTa와 ALBERT보다 더 높은 일관성과 정확성을 달성한다.
일관성과 정확성은 모델 간에 양의 상관관계가 있지만 더 많은 학습 데이터가 항상 더 나은 일관성을 보장하지는 않는다(예외가 존재한다).
구문 강건성이 존재하지만 지식 추출은 표면 변형에 여전히 민감하여 통사 이외의 표면 형태 영향이 있음을 시사한다.
제안된 일관성 손실을 적용하면 unseen 관계에서 일관성이 향상된다(연구의 근거).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.