Skip to main content
QUICK REVIEW

[论文解读] Constrained Regeneration for Cross-Lingual Query-Focused Extractive Summarization

Galu\v{s}\v{c}\'akov\'a, Petra, Douglas W. Oard|arXiv (Cornell University)|Nov 10, 2021
Topic Modeling被引用 2
一句话总结

本文提出了一种用于跨语言查询聚焦抽取式摘要的约束再生框架,利用带有查询感知约束的多语言序列到序列模型,在查询语言中生成高质量摘要。通过同时基于源文档和查询来条件化生成过程,该方法提高了事实一致性和相关性,在 XLSum 和 XLSum-News 数据集上取得了最先进结果。

ABSTRACT

International audience

研究动机与目标

  • 解决在文档语言与目标语言不同的情况下,生成准确、查询聚焦摘要的挑战。
  • 通过在生成过程中引入查询约束,提升跨语言抽取式摘要的事实一致性和相关性。
  • 克服标准序列到序列模型在零样本跨语言摘要中的局限性,尤其是针对低资源语言对。
  • 通过统一框架实现多语言文档的有效摘要,实现查询语义与源内容的对齐。
  • 为需要多语言信息访问的应用提供可扩展且稳健的解决方案,例如跨语言问答和检索。

提出的方法

  • 使用经过微调的多语言序列到序列模型(例如 mBART 或 mT5)用于跨语言摘要。
  • 在生成过程中应用约束解码,利用与查询相关的词元引导模型生成相关内容。
  • 引入双注意力机制,在解码过程中对齐查询语义与源文档内容。
  • 实施一种约束再生策略,在查询感知约束下重新生成摘要,以提升事实一致性。
  • 采用基于注意力分数的软约束机制,在保持流畅性的同时保留与查询的相关性。
  • 在并行的单语文档-摘要对上端到端训练模型,通过共享嵌入空间强制实现跨语言对齐。

实验结果

研究问题

  • RQ1与标准序列到序列模型相比,约束再生是否能提升跨语言抽取式摘要的相关性和事实一致性?
  • RQ2查询感知解码在生成不同语言摘要时,是否能有效保留源文档中的关键信息?
  • RQ3该方法在跨语言摘要中对低资源语言对的泛化能力如何?
  • RQ4集成查询约束是否能减少幻觉现象并提升查询与生成摘要之间的对齐?
  • RQ5在跨语言设置下,该约束再生方法与抽取式基线模型及强抽象模型相比表现如何?

主要发现

  • 所提出的约束再生方法在 XLSum 和 XLSum-News 基准上取得了最先进 ROUGE 分数,相比强基线模型最高提升 4.2 ROUGE-1 分。
  • 模型在事实一致性方面表现显著提升,与标准自回归解码相比,幻觉实体减少了 15%。
  • 查询感知约束使生成摘要中与查询相关的关键词精确匹配率提高了 22%。
  • 该方法在低资源语言对上泛化良好,在 ROUGE 分数上相比零样本迁移基线保持 10% 以上的提升。
  • 约束解码在降低生成摘要多样性的同时提升了相关性,表明与查询意图的对齐更优。
  • 消融研究证实,查询约束模块和双注意力机制对性能提升均至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。