QUICK REVIEW

[论文解读] A Paragraph-level Multi-task Learning Model for Scientific Fact-Verification

Xiangci Li, Gully Burns|arXiv (Cornell University)|Dec 28, 2020

Topic Modeling参考文献 31被引用 28

一句话总结

本文提出了一种用于科学事实验证的段落级多任务学习模型，通过使用基于BERT的紧凑段落编码，联合优化理由选择与立场预测。通过利用整个段落的上下文表示和动态注意力机制，该模型在SciFact排行榜上取得了最先进性能，在句子级验证中达到60.9%的F1分数，在摘要级验证中达到67.2%。

ABSTRACT

Even for domain experts, it is a non-trivial task to verify a scientific claim by providing supporting or refuting evidence rationales. The situation worsens as misinformation is proliferated on social media or news websites, manually or programmatically, at every moment. As a result, an automatic fact-verification tool becomes crucial for combating the spread of misinformation. In this work, we propose a novel, paragraph-level, multi-task learning model for the SciFact task by directly computing a sequence of contextualized sentence embeddings from a BERT model and jointly training the model on rationale selection and stance prediction.

研究动机与目标

为解决在低资源条件下验证科学主张并提供支持或反驳证据的挑战。
通过联合训练理由选择与立场预测，减轻流水线式事实验证系统中的误差传播问题。
通过利用上下文化的段落级表示而非孤立的句子嵌入，提升科学事实验证的性能。
评估在低资源科学NLP设置下，通过预训练和领域自适应进行迁移学习的有效性。
开发一种稳健的端到端模型，在SciFact基准上超越现有流水线方法。

提出的方法

通过将主张和完整段落作为单一序列输入BERT，实现紧凑的段落编码，从而在句子间实现基于注意力的上下文建模。
采用多任务学习，联合训练理由选择与立场预测，利用理由选择的置信度分数作为立场预测的注意力权重。
使用BioSentVec嵌入实现快速可扩展的摘要检索，以领域自适应的句子嵌入方法替代TF-IDF。
在训练过程中引入负样本采样，以提升对错误或虚假候选摘要的鲁棒性并增强泛化能力。
探索两种迁移学习策略：在FEVER上进行预训练和领域自适应，以缓解科学事实验证中的数据稀缺问题。
采用动态注意力机制连接理由选择与立场预测模块，实现在任务间的双向信息流动。

实验结果

研究问题

RQ1与流水线方法相比，联合训练理由选择与立场预测是否能提升事实验证性能？
RQ2与独立句子编码相比，使用完整段落输入BERT的紧凑段落编码是否能生成更优的上下文化句子表示？
RQ3在低资源科学事实验证中，预训练和领域自适应等迁移学习策略有多有效？
RQ4负样本采样是否能增强模型对噪声或错误候选摘要的鲁棒性？
RQ5段落级模型是否能在科学主张验证任务中超越句子级模型？

主要发现

紧凑段落编码方法显著优于单独计算句子嵌入的方法，因为它通过BERT的自注意力机制在句子间实现了更丰富的上下文建模。
结合负样本采样的联合训练优于流水线基线，尤其在开放测试集上表现更优，表明误差传播得到有效缓解。
段落联合模型在SciFact排行榜上获得第一名，测试集句子级F1得分为60.9%，摘要级F1得分为67.2%。
联合训练带来的性能提升主要源于多任务学习设置，而非检索阶段使用BioSentVec替代TF-IDF。
在FEVER上预训练和领域自适应均为有效的迁移学习策略，性能增益相近，表明对初始化方法具有鲁棒性。
尽管设计精良，KGAT在性能上并未显著优于简单的注意力机制，可能由于在小规模SciFact数据集上出现过正则化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。