[论文解读] Fine-tune Bert for DocRED with Two-step Process
该论文显示,在 DocRED 上对 BERT 进行微调,采用两步训练过程(先关系存在性,再具体关系)相比基线提高了文档级关系抽取性能。
Modelling relations between multiple entities has attracted increasing attention recently, and a new dataset called DocRED has been collected in order to accelerate the research on the document-level relation extraction. Current baselines for this task uses BiLSTM to encode the whole document and are trained from scratch. We argue that such simple baselines are not strong enough to model to complex interaction between entities. In this paper, we further apply a pre-trained language model (BERT) to provide a stronger baseline for this task. We also find that solving this task in phases can further improve the performance. The first step is to predict whether or not two entities have a relation, the second step is to predict the specific relation.
研究动机与目标
- 推动超越句子级模型的更好文档级关系抽取。
- 展示使用预训练语言模型(BERT)在 DocRED 上的好处。
- 提出一种两步训练方法以解决 DocRED 的标签不平衡。
- 在 DocRED 数据集上与已建立的基线进行对比评估。
提出的方法
- 使用 BERT-base 对文档进行编码以获得标记嵌入和实体嵴嵌入。
- 通过对投影后的 BERT 嵌入使用 BiLinear 层表示实体对以预测关系。
- 分两步训练:(1) 二元关系存在性(关系 vs. N/A)并使用平衡采样;(2) 仅对相关对进行多类关系预测。
- 在 BiLinear 分类器之前将 BERT 输出投影到 128 维空间。
- 使用带注释的 DocRED 数据进行训练;在步骤1中,标签为 1/0,负样本对正样本比为 3:1;在步骤2中,仅在关系实例上训练。
实验结果
研究问题
- RQ1与 CNN/LSTM 基线相比,BERT 是否能在 DocRED 的文档级关系抽取中带来提升?
- RQ2两步训练过程是否能缓解标签不平衡并提升文档级关系抽取的性能?
- RQ3实体交互建模方法在多大程度上影响 DocRED 的性能?
主要发现
- BERT 相较基线在 DocRED(dev 与 test)上约提升 2% 的 F1。
- 两步训练在 BERT 的基础上进一步提升了性能(BERT-Two-Step);第二步的准确率约为 90%。
- 基于 BiLSTM 的编码器和仅局部交互的模型在 DocRED 上的表现不及基于 BERT 的模型。
- 瓶颈在第一步(预测是否存在关系)而不是识别具体关系。
- 一个按句子逐句编码文档的 SentModel 的表现与 BiLSTM 相仿,表明当前模型在捕捉跨句子交互方面存在困难。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。