QUICK REVIEW

[論文レビュー] Knowledge-Aware Language Model Pretraining

Corby Rosset, Chenyan Xiong|arXiv (Cornell University)|Jun 29, 2020

Topic Modeling参考文献 37被引用数 44

ひとこと要約

KALMは入力にエンティティ信号を追加し、事前学習時にエンティティ予測目的を導入することで、知識豊富な表現とゼロショットおよびプローブ性能の向上を実現する。 Transformer アーキテクチャを変更せずに。パラメータ効率の高い利点を持つ強力なGPT-2置換として機能する。

ABSTRACT

How much knowledge do pretrained language models hold? Recent research observed that pretrained transformers are adept at modeling semantics but it is unclear to what degree they grasp human knowledge, or how to ensure they do so. In this paper we incorporate knowledge-awareness in language model pretraining without changing the transformer architecture, inserting explicit knowledge layers, or adding external storage of semantic information. Rather, we simply signal the existence of entities to the input of the transformer in pretraining, with an entity-extended tokenizer; and at the output, with an additional entity prediction task. Our experiments show that solely by adding these entity signals in pretraining, significantly more knowledge is packed into the transformer parameters: we observe improved language modeling accuracy, factual correctness in LAMA knowledge probing tasks, and semantics in the hidden representations through edge probing.We also show that our knowledge-aware language model (KALM) can serve as a drop-in replacement for GPT-2 models, significantly improving downstream tasks like zero-shot question-answering with no task-related training.

研究の動機と目的

標準的な事前学習が現実世界の知識を明示的に欠いている理由を動機づけ、軽量な知識対応型の代替手段を探る。
エンティティトークナイザーを介してエンティティを信号化し、補助的なエンティティ予測タスクを用いる知識認識機構を提案する。
知識認識型の事前学習が、モデルサイズを増やすことなく、知識プローブ・言語モデリング指標・ゼロショットQAを改善することを実証する。
LAMAプローブ、エッジプロービング、困惑度、Lambada、ゼロショットQAタスクにおいてKALMをGPT-2と比較評価する。

提案手法

表層形辞書を用いて語のn-gramを世界のエンティティへ対応づけるエンティティトークナイザーを導入する。
標準の語トークンと対応する埋め込みを持つ整列されたエンティティトークンの2チャネル入力を作成する。
正しいエンティティをネガティブと対比するマージンベースの損失を用いた次エンティティ予測タスクで事前学習を拡張する。
言語モデリング損失とエンティティ予測損失を組み合わせた多タスク目的関数でエンドツーエンドにモデルを訓練する（l_KALM = l_W + alpha l_E）。
Transformerアーキテクチャを変更せず、エンティティトークンと埋め込みを用いてトークン語彙を拡張するだけ。
LAMAプロービング、エッジプロービング、ゼロショットQAを通じて知識と言語能力を評価する。

実験結果

リサーチクエスチョン

RQ1事前学習中にエンティティ知識を信号化することは、トランスフォーマーのパラメータにエンコードされた知識にどのような影響を与えるか。
RQ2アーキテクチャの変更なしで、知識認識型の事前学習手法が事実性と常識/関係意味論を改善できるか。
RQ3知識認識型信号は、より大規模なモデルと同等程度のゼロショットQAおよびプローブ課題の向上をもたらすか。
RQ4標準的な言語モデリング指標（困惑度、最終語の正確さ）と表現品質（エッジプロービング）におけるKALMの影響は何か。

主な発見

KALMはGPT-2をベースラインとしたLAMA知識プロービングの正確性を約40-80%改善し、一部の関係でGPT-2スケールの性能に近づく。
KALMはベースラインGPT-2と比べてLambadaの最後の語の正確性およびWikiText-103の困惑度が改善され、言語モデリングの向上を示す。
KALMのゼロショットQA正確度は同等のGPT-2モデルより20-100%高く、ゼロショット知識検索能力の強さを示す。
エッジプロービングは、KALMの表現がタスク全体でより有益になり、特にエンティティ型付け、関係、意味役割に対して有効性が高まり、知識認識によって学習が加速する。
KALM Largeは難しい関係（N-M）において、追加約2%のパラメータでGPT-2 17Bの性能と同等を達成し、パラメータ効率を際立たせる。
KALMはエンティティルックアップと埋め込みからの控えめな定常的オーバーヘッドのみで、GPT-2に似た推論速度を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。