QUICK REVIEW

[论文解读] Knowledge-Aware Language Model Pretraining

Corby Rosset, Chenyan Xiong|arXiv (Cornell University)|Jun 29, 2020

Topic Modeling参考文献 37被引用 44

一句话总结

KALM 在输入中加入实体信号，并在预训练阶段加入实体预测目标，获得知识丰富的表征，且在无需改变 Transformer 架构的情况下提升零样本和探针表现。它是一个强有力的现成替代 GPT-2 的方案，且参数效率提升。

ABSTRACT

How much knowledge do pretrained language models hold? Recent research observed that pretrained transformers are adept at modeling semantics but it is unclear to what degree they grasp human knowledge, or how to ensure they do so. In this paper we incorporate knowledge-awareness in language model pretraining without changing the transformer architecture, inserting explicit knowledge layers, or adding external storage of semantic information. Rather, we simply signal the existence of entities to the input of the transformer in pretraining, with an entity-extended tokenizer; and at the output, with an additional entity prediction task. Our experiments show that solely by adding these entity signals in pretraining, significantly more knowledge is packed into the transformer parameters: we observe improved language modeling accuracy, factual correctness in LAMA knowledge probing tasks, and semantics in the hidden representations through edge probing.We also show that our knowledge-aware language model (KALM) can serve as a drop-in replacement for GPT-2 models, significantly improving downstream tasks like zero-shot question-answering with no task-related training.

研究动机与目标

阐释为何标准预训练缺乏明确的现实世界知识，并探索一种轻量级的知识感知替代方案。
提出一种通过实体分词器进行实体信号传递并辅以实体预测任务的知识感知机制。
展示知识感知的预训练在不增加模型大小的情况下提升知识探针、语言建模指标和零样本问答表现。
在 LAMA 探针、边缘探针、困惑度、Lambada 和零样本问答任务上评估 KALM 相对于 GPT-2 的表现。

提出的方法

引入一个实体分词器，利用表面形式词典将词-ngrams 映射到世界实体。
创建一个双通道输入：标准词标记以及对齐的实体标记及其对应的嵌入。
通过使用对比正确实体与负样本的边际损失来增加一个下一个实体预测任务，扩充预训练。
端到端训练模型，采用多任务目标，将语言模型损失与实体预测损失结合（l_KALM = l_W + alpha l_E）。
保持 Transformer 架构不变；仅通过增加实体标记和嵌入来扩展词汇表。
通过 LAMA 探针、边缘探针和零样本问答评估知识与语言能力。

实验结果

研究问题

RQ1在预训练期间传递实体知识如何影响变换器参数中编码的知识？
RQ2在不改变架构的前提下，知识感知的预训练方法能否改善事实正确性与常识/关系语义？
RQ3知识感知信号在零样本问答和探针任务中是否能带来与更大模型相当的收益？
RQ4KALM 对标准语言建模指标（困惑度、末词准确度）和表征质量（边缘探针）的影响是什么？

主要发现

KALM 在 LAMA 知识探针的准确度上相较于 GPT-2 基线提高大约 40-80%，在某些关系上接近 GPT-2 规模的表现。
KALM 相较基线 GPT-2 在 Lambada 的末词准确度和 WikiText-103 的困惑度方面表现更佳，表明语言建模有所提升。
KALM 的零样本问答准确度比等效 GPT-2 模型高出 20%-100%，展示更强的零样本知识检索能力。
边缘探针显示 KALM 的表征在各任务中变得更具信息性，特别是在实体类型、关系和语义角色方面，且随着知识感知的引入学习速度提升。
KALM Large 在某些困难关系（N-M）上达到 GPT-2 17B 的性能，仅使用约 2% 的额外参数，突出参数效率。
KALM 保持与 GPT-2 相似的推理速度，仅因实体查找与嵌入而产生适度常数开销。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。