[论文解读] Contrastive Triple Extraction with Generative Transformer
本文提出了一种基于生成式Transformer的对比三元组抽取模型(CGT),这是一种新颖的端到端序列到序列模型,可提升开放信息抽取中的一致性与长序列性能。通过整合三元组对比学习、批量动态注意力掩码以及三元组级校准机制,CGT在NYT、WebNLG和MIE数据集上均优于强基线模型,尤其在长句子上表现更优,而RNN-based模型在此类样本上表现不佳。
Triple extraction is an essential task in information extraction for natural language processing and knowledge graph construction. In this paper, we revisit the end-to-end triple extraction task for sequence generation. Since generative triple extraction may struggle to capture long-term dependencies and generate unfaithful triples, we introduce a novel model, contrastive triple extraction with a generative transformer. Specifically, we introduce a single shared transformer module for encoder-decoder-based generation. To generate faithful results, we propose a novel triplet contrastive training object. Moreover, we introduce two mechanisms to further improve model performance (i.e., batch-wise dynamic attention-masking and triple-wise calibration). Experimental results on three datasets (i.e., NYT, WebNLG, and MIE) show that our approach achieves better performance than that of baselines.
研究动机与目标
- 为解决现有端到端三元组抽取模型的局限性,特别是长期依赖捕捉能力差以及生成三元组不一致的问题。
- 通过引入基于正样本(黄金三元组)与负样本(损坏三元组)的新型对比学习目标,提升生成三元组的一致性。
- 通过动态注意力掩码实现生成与对比目标的联合优化,提升模型性能。
- 通过三元组级校准机制,在推理阶段过滤低置信度或不一致的三元组,减少幻觉或错误三元组。
- 在具有不同句子长度的基准数据集上验证所提框架的有效性。
提出的方法
- 采用单一共享的Transformer编码器-解码器架构,输入与目标序列拼接并以特殊标记分隔。
- 应用部分因果掩码以区分编码器与解码器表示,且无需额外参数。
- 引入三元组对比学习目标,将黄金三元组视为正样本,随机损坏的三元组视为负样本。
- 批量动态注意力掩码机制通过动态选择训练目标,实现生成与对比目标的联合优化。
- 三元组级校准算法在推理阶段过滤低置信度或不一致的三元组,以提升一致性。
- 模型在预训练的T5风格模型上进行端到端微调,除基础模型外无需额外参数。
实验结果
研究问题
- RQ1对比学习能否提升序列到序列三元组抽取中生成三元组的一致性?
- RQ2所提出的CGT模型在长输入序列中是否比RNN-based模型更好地捕捉长期依赖?
- RQ3通过动态注意力掩码实现的联合优化能否同时提升生成与对比目标的性能?
- RQ4三元组级校准在推理阶段减少幻觉或错误三元组方面是否有效?
- RQ5所提出的架构是否在多样化的基准数据集(包括长而复杂的句子)上优于强基线模型?
主要发现
- CGT在三个基准数据集(NYT、WebNLG和MIE)上均达到最先进性能,优于包括CopyRE和CopyMTL在内的强基线模型。
- 在长句子(长度 > 60)上,CGT保持优越性能,而CopyRE表现出显著性能下降,表明其具备更强的长上下文建模能力。
- 消融实验表明,三元组对比学习与动态注意力掩码均对性能提升有显著贡献。
- 即使使用随机初始化,CGT(Random)仍优于生成基线模型,表明性能提升源于架构与训练目标设计,而不仅依赖预训练。
- 错误分析显示,主要失败模式为语境模糊、实体边界错误以及数据集噪声(尤其在WebNLG中),为未来工作指明方向。
- 得益于对比目标与校准步骤,该模型在实体复杂或重叠时仍能稳健生成正确关系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。