[论文解读] Deep Bidirectional Language-Knowledge Graph Pretraining
Dragon 通过从文本和知识图谱中预训练,深度联合语言与知识模型,结合 MLM 和知识图谱链接预测,在通用和生物医药问答任务上取得显著提升,包括在复杂推理上提升约10%以及在低资源设置下提升约8%。
Pretraining a language model (LM) on text has been shown to help various downstream NLP tasks. Recent works show that a knowledge graph (KG) can complement text data, offering structured background knowledge that provides a useful scaffold for reasoning. However, these works are not pretrained to learn a deep fusion of the two modalities at scale, limiting the potential to acquire fully joint representations of text and KG. Here we propose DRAGON (Deep Bidirectional Language-Knowledge Graph Pretraining), a self-supervised approach to pretraining a deeply joint language-knowledge foundation model from text and KG at scale. Specifically, our model takes pairs of text segments and relevant KG subgraphs as input and bidirectionally fuses information from both modalities. We pretrain this model by unifying two self-supervised reasoning tasks, masked language modeling and KG link prediction. DRAGON outperforms existing LM and LM+KG models on diverse downstream tasks including question answering across general and biomedical domains, with +5% absolute gain on average. In particular, DRAGON achieves notable performance on complex reasoning about language and knowledge (+10% on questions involving long contexts or multi-step reasoning) and low-resource QA (+8% on OBQA and RiddleSense), and new state-of-the-art results on various BioNLP tasks. Our code and trained models are available at https://github.com/michiyasunaga/dragon.
研究动机与目标
- 通过联合建模文本和知识图谱(KG)来驱动学习深度交互表示。
- 开发可扩展的自监督预训练目标,双向融合文本和KG表示。
- 在通用领域和生物医药任务上评估该方法,以展示改进的推理能力和数据效率。
- 展示联合预训练与 MLM 和 KG 链接预测相比单一目标或非预训练基线具有更强的性能。
提出的方法
- 通过抽取文本片段并通过实体链接和两跳扩展检索相关KG子图,构建对齐的(文本片段、本地KG)对。
- 使用跨模态编码器(GreaseLM)在多层融合层中双向融合文本 token 表示和KG 节点表示。
- 使用联合目标进行预训练,结合掩码语言建模(MLM)和KG链接预测(LinkPred)。
- 通过消融实验评估不同KG评分函数(DistMult、TransE、RotatE)和模态交互策略。
- 通过对下游任务进行微调,即对融合后的文本-KG 表示进行池化,以用于分类或问答任务。
实验结果
研究问题
- RQ1一个深度双向的自监督预训练机制能否在大规模实现文本与KG信息的有效融合?
- RQ2联合的MLM与KG链接预测目标是否比单一目标的预训练产生更好的联合表示?
- RQ3与仅使用语言模型(LM)和KG增强基线相比,Dragon 在常识推理和生物医学导向的问答任务上的表现如何?
- RQ4在预训练阶段利用KG结构时,该方法在数据效率和可扩展性方面是否更优?
主要发现
| 模型 | CSQA | OBQA | Riddle | ARC | CosmosQA | HellaSwag | PIQA | SIQA | aNLI |
|---|---|---|---|---|---|---|---|---|---|
| RoBERTa | 68.7 | 64.9 | 60.7 | 43.0 | 80.5 | 82.3 | 79.4 | 75.9 | 82.7 |
| QAGNN | 73.4 | 67.8 | 67.0 | 44.4 | 80.7 | 82.6 | 79.6 | 75.7 | 83.0 |
| GreaseLM | 74.2 | 66.9 | 67.2 | 44.7 | 80.6 | 82.8 | 79.6 | 75.5 | 83.3 |
| Dragon (Ours) | 76.0 | 72.0 | 71.3 | 48.6 | 82.3 | 85.2 | 81.1 | 76.8 | 84.0 |
- Dragon 在九项常识推理任务中始终优于 RoBERTa 和 KG 增强基线(QAGNN、GreaseLM),例如在 OBQA、CosmosQA 和 HellaSwag 上。
- 该模型在需要复杂推理的任务上显示出显著提升(例如在多步/否定/长上下文问题上 +10%),以及在低资源问答中的提升(OBQA 和 RiddleSense +8%)。
- 在通用域设置中,Dragon 与基线相比实现大约+5% 的绝对提升。
- 在生物医学领域,Dragon 在 BioNLP 任务上达到新的状态最优,MedQA 和 PubMedQA 显著提升。
- 消融显示联合 MLM + LinkPred 优于任一单独目标,且双向跨模态融合优于端到端拼接或KG-as-sentences 基线。
- 增大模型容量有助于 Dragon,但对微调为唯一基线不起作用,表明预训练可以实现数据高效扩展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。