[论文解读] K-BERT: Enabling Language Representation with Knowledge Graph
K-BERT 通过知识图谱将领域知识注入到类似 BERT 的模型中,使用带有软定位和可见矩阵的知识启用句子树来控制知识的影响,在不进行额外预训练的情况下提升领域特定的 NLP 任务。
Pre-trained language representation models, such as BERT, capture a general language representation from large-scale corpora, but lack domain-specific knowledge. When reading a domain text, experts make inferences with relevant knowledge. For machines to achieve this capability, we propose a knowledge-enabled language representation model (K-BERT) with knowledge graphs (KGs), in which triples are injected into the sentences as domain knowledge. However, too much knowledge incorporation may divert the sentence from its correct meaning, which is called knowledge noise (KN) issue. To overcome KN, K-BERT introduces soft-position and visible matrix to limit the impact of knowledge. K-BERT can easily inject domain knowledge into the models by equipped with a KG without pre-training by-self because it is capable of loading model parameters from the pre-trained BERT. Our investigation reveals promising results in twelve NLP tasks. Especially in domain-specific tasks (including finance, law, and medicine), K-BERT significantly outperforms BERT, which demonstrates that K-BERT is an excellent choice for solving the knowledge-driven problems that require experts.
研究动机与目标
- 推动在开放域预训练之外的语言表示中对领域知识的需求。
- 提出一种 KG 启用的 BERT 变体,在不需要对 KG 数据进行完整预训练的情况下注入结构化知识。
- 提供一种机制(软定位和可见矩阵)以缓解知识噪声并保持句子含义。
- 在多个开放域和领域特定的中文 NLP 任务上证明其有效性。
提出的方法
- 引入 K-BERT,加载预训练的 BERT,并用 KG 三元组来增强输入,形成知识丰富的句子树。
- 使用知识层对句子实体的 KG 三元组进行查询(K-Query),并将它们注入到句子中(K-Inject)。
- 通过嵌入层将句子树转换为令牌级嵌入,采用软定位嵌入以保持结构。
- 使用带有可见矩阵的窥视层来调节哪些标记可以相互关注,实现为根据可见性限制自注意力的 Mask-Transformer。
- 以与 BERT 相同的参数预算进行训练(12 层、12 个注意头、768 个隐藏单元),并仅在微调/推理阶段启用 KG(无 KG 预训练)。
- 在涵盖开放域和领域特定领域的十二个中文 NLP 任务上进行评估(金融、法律、医学)。
实验结果
研究问题
- RQ1在不对 KG 数据进行再预训练的情况下,KG 启用的注入是否能提升领域特定的语言理解?
- RQ2整合 KG 知识如何影响开放域任务与领域特定任务的性能?
- RQ3可控机制(软定位和可见矩阵)是否在保留或提升句子语义的同时缓解知识噪声?
- RQ4哪类 KG(百科类 vs 语言聚焦类)在不同任务类别(NLI、QA、NER、情感分析)上更有利?
- RQ5K-BERT 是否与标准的 BERT 预训练参数兼容,并且在资源受限环境中实用?
主要发现
- K-BERT 在金融、法律、医学等领域特定任务上表现优于 BERT,验证了 KG 启用的知识的价值。 CN-DBpedia(百科类 KG)提升了问答(Q&A)和命名实体识别(NER)任务,而 HowNet(语言侧 KG)更有利于语义相似性任务,如 XNLI 和 LCQMC;WebtextZh 与 KG 一起使用时提供额外的提升。
- 在特定领域的结果中,K-BERT 结合 CN-DBpedia 将 MSRA-NER 的 F1 从 93.6% 提升到 95.7%(约 +2.1 个百分点),并同样提升了其他领域任务;MedicalKG 在 Medicine_NER 上带来显著增益。
- 消融研究显示,移除软定位或可见矩阵会降低性能,省略可见矩阵在某些情况下甚至使性能低于 BERT,证实 KN 缓解是必不可少的。
- K-BERT 在 Law_Q&A 的收敛速度比 BERT 更快(峰值在第 2 轮对比 BERT 的第 4 轮),并通过可见矩阵和软定位机制对 KN 保持鲁棒。
- 该方法允许在不进行 KG 特定预训练的情况下利用现有的 BERT 预训练参数,便于在资源有限的情况下的实际应用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。