Skip to main content
QUICK REVIEW

[논문 리뷰] Knowledge-Aware Language Model Pretraining

Corby Rosset, Chenyan Xiong|arXiv (Cornell University)|2020. 06. 29.
Topic Modeling참고 문헌 37인용 수 44
한 줄 요약

KALM은 입력에 엔터티 신호를 추가하고 프리트레이닝 중 엔터티 예측 목표를 도입하여 지식이 풍부한 표현을 얻고 제로샷 및 프로빙 성능을 향상시키되, Transformer 아키텍처를 변경하지 않습니다. 이는 매개변수 효율적인 이점을 가진 강력한 드롭-인 GPT-2 대체 역할을 하며.

ABSTRACT

How much knowledge do pretrained language models hold? Recent research observed that pretrained transformers are adept at modeling semantics but it is unclear to what degree they grasp human knowledge, or how to ensure they do so. In this paper we incorporate knowledge-awareness in language model pretraining without changing the transformer architecture, inserting explicit knowledge layers, or adding external storage of semantic information. Rather, we simply signal the existence of entities to the input of the transformer in pretraining, with an entity-extended tokenizer; and at the output, with an additional entity prediction task. Our experiments show that solely by adding these entity signals in pretraining, significantly more knowledge is packed into the transformer parameters: we observe improved language modeling accuracy, factual correctness in LAMA knowledge probing tasks, and semantics in the hidden representations through edge probing.We also show that our knowledge-aware language model (KALM) can serve as a drop-in replacement for GPT-2 models, significantly improving downstream tasks like zero-shot question-answering with no task-related training.

연구 동기 및 목표

  • 표준 프리트레이닝이 왜 명시적인 실제 세계 지식을 충분히 드러내지 않는지에 대한 동기를 제시하고 경량의 지식 인식 대안을 탐구한다.
  • 엔터티 토크나이저와 보조 엔터티 예측 작업을 통해 엔터티를 신호로 활용하는 지식 인식 메커니즘을 제안한다.
  • 지식 인식 프리트레이닝이 지식 프로브, 언어 모델링 지표, 제로샷 QA를 개선하고 모델 크기를 늘리지 않는다는 것을 Demonstrate 한다.
  • LAMA 프로브, 에지 프로빙, perplexity, Lambada, 제로샷 QA 작업 전반에서 GPT-2와의 비교를 평가한다.

제안 방법

  • word-ngrams를 세계 엔터티로 매핑하는 엔터티 토크나이저를 도입한다.
  • 표면 형식 딕셔너리를 사용하여 표준 단어 토큰과 해당 임베딩을 갖는 정렬된 엔터티 토큰의 이중 채널 입력을 만든다.
  • 정확한 엔터티와 부정 사례를 대조하는 마진 기반 손실을 사용하는 다음 엔터티 예측 작업으로 프리트레이닝을 보강한다.
  • 언어 모델링 손실과 엔터티 예측 손실(l_KALM = l_W + alpha l_E)을 결합한 다중 작업 objective로 모델을 엔드-투-엔드로 학습한다.
  • Transformer 아키텍처를 변경하지 않고 엔터티 토큰과 임베딩으로 토큰 어휘를 확장하는 것만으로 구성한다.
  • LAMA 프로빙, 에지 프로빙, 제로샷 QA를 통해 지식 및 언어 역량을 평가한다.

실험 결과

연구 질문

  • RQ1프리트레이닝 중 엔터티 지식 신호를 통해 변환기 매개변수에 인코딩된 지식에 어떤 영향이 있는가?
  • RQ2아키텍처를 변경하지 않고도 지식 인식 프리트레이닝이 사실적 정확성과 상식/관계적 의미를 향상시킬 수 있는가?
  • RQ3지식 인식 신호가 더 큰 모델과 비교할 때 제로샷 QA 및 프로빙 작업에서 이점을 제공하는가?
  • RQ4KALM이 표준 언어 모델링 지표(혼동도, 마지막 단어 정확도) 및 표현력(에지 프로빙)에 미치는 영향은 무엇이고 어느 정도인가?

주요 결과

  • KALM은 GPT-2 기준 지식 프로빙 정확도를 작업별로 약 40-80% 향상시키며 일부 관계에서 GPT-2 규모의 성능에 근접합니다.
  • KALM은 Baseline GPT-2에 비해 Lambada 마지막 단어 정확도와 WikiText-103 perplexity를 개선하여 언어 모델링이 향상되었음을 보여줍니다.
  • KALM의 제로샷 QA 정확도는 동등한 GPT-2 모델보다 20%-100% 높아 제로샷 지식 검색이 더 강력함을 보여줍니다.
  • 에지 프로빙은 KALM의 표현이 엔터티 타입 지정, 관계 및 의미론적 역할에 대해 더 정보성이 높아지며 학습이 지식 인식으로 가속된다는 것을 시사합니다.
  • KALM Large는 매우 어려운 관계(N-M)에서 GPT-2 17B의 성능에 매칭되며 약 2% 정도의 파라미터 증가로 매개변수 효율성을 강조합니다.
  • KALM은 엔터티 조회 및 임베딩으로 인한 약간의 상수 오버헤드만으로 GPT-2 유사한 추론 속도를 유지합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.