Skip to main content
QUICK REVIEW

[논문 리뷰] Measuring and Improving Consistency in Pretrained Language Models

Yanai Elazar, Nora Kassner|arXiv (Cornell University)|2021. 02. 01.
Topic Modeling참고 문헌 77인용 수 32
한 줄 요약

이 논문은 ParaRel을 도입하여 paraphrase cloze 패턴을 통해 사전학습된 언어 모델(PLMs)의 일관성을 측정하고, 모델 전반에 걸친 광범위한 불일치를 발견하며, 이를 개선하기 위해 KL-divergence 기반의 일관성 손실을 제안한다.

ABSTRACT

Consistency of a model -- that is, the invariance of its behavior under meaning-preserving alternations in its input -- is a highly desirable property in natural language processing. In this paper we study the question: Are Pretrained Language Models (PLMs) consistent with respect to factual knowledge? To this end, we create ParaRel, a high-quality resource of cloze-style query English paraphrases. It contains a total of 328 paraphrases for 38 relations. Using ParaRel, we show that the consistency of all PLMs we experiment with is poor -- though with high variance between relations. Our analysis of the representational spaces of PLMs suggests that they have a poor structure and are currently not suitable for representing knowledge robustly. Finally, we propose a method for improving model consistency and experimentally demonstrate its effectiveness.

연구 동기 및 목표

  • 의미를 보존하는 패러프레이즈 하에서 PLMs이 일관된 사실 예측을 유지하는지 평가한다.
  • ParaRel을 도입한다, 38개의 관계와 328개의 패턴으로 구성된 고품질의 패러프레이즈 기반 벤치마크.
  • BERT, RoBERTa, ALBERT 간의 지식 추출과 일관성을 평가한다.
  • 보지 않은 관계에서 모델의 일관성을 개선하기 위한 일관성 손실을 제안하고 검증한다.

제안 방법

  • KB 객체에 대한 제한된 후보 집합을 갖춘 관계 r_i에 대해 데이터 삼중항 D_i와 패러프레이즈 패턴 P_i를 사용하는 일관성 프레임워크를 정의한다.
  • 기본 패턴을 보강하고 LPAQA 패러프레이즈, SPIKE 유래 패턴, 전문가 큐레이션을 도입하여 ParaRel을 구성한다; 높은 평가자 간 일치도를 보장한다.
  • 여러 PLM에서 일관성(Consistency), 지식(Accuracy), 그리고 결합 지표인 Consistent-Acc를 평가한다.
  • 패턴별 출력 분포 간의 양방향 KL 발산을 바탕으로 한 일관성 손실을 MLM 손실과 결합하고, 관계별 배치로 학습하는 방식의 일관성 손실을 도입한다.

실험 결과

연구 질문

  • RQ1사실 질의의 패러프레이즈 유사 변형에 대해 PLM 동작이 불변인가?
  • RQ2ParaRel이 다양한 관계와 패턴에 걸친 일관성을 얼마나 잘 포착하는가?
  • RQ3전용 일관성 손실이 보지 않은 관계들 간의 패턴 간 합의를 개선할 수 있는가?

주요 결과

  • PLMs는 전반적으로 불일치가 높고 관계별 변동성이 큰 모습을 보인다.
  • 이 설정에서 BERT 기반 모델은 일반적으로 RoBERTa와 ALBERT보다 더 높은 일관성과 정확성을 달성한다.
  • 일관성과 정확성은 모델 간에 양의 상관관계가 있지만 더 많은 학습 데이터가 항상 더 나은 일관성을 보장하지는 않는다(예외가 존재한다).
  • 구문 강건성이 존재하지만 지식 추출은 표면 변형에 여전히 민감하여 통사 이외의 표면 형태 영향이 있음을 시사한다.
  • 제안된 일관성 손실을 적용하면 unseen 관계에서 일관성이 향상된다(연구의 근거).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.