Skip to main content
QUICK REVIEW

[论文解读] Abstractive Summarization of Spoken and Written Instructions with BERT

Alexandra Savelieva, Bryan Au-Yeung|arXiv (Cornell University)|Aug 21, 2020
Topic Modeling参考文献 23被引用 25
一句话总结

本论文提出了一种微调后的 BERTSum 模型,用于对语音和书面教学视频进行生成式摘要,通过迁移学习和预处理技术校正自动语音识别(ASR)生成的转录文本。该模型在 WikiHow 数据集上超越了当前最先进水平(SOTA),并在 CNN/DailyMail 数据集上保持性能,同时在不同领域间展现出强大的泛化能力,且未出现性能下降,生成的摘要在流畅性和实用性方面达到人类水平。

ABSTRACT

Summarization of speech is a difficult problem due to the spontaneity of the flow, disfluencies, and other issues that are not usually encountered in written texts. Our work presents the first application of the BERTSum model to conversational language. We generate abstractive summaries of narrated instructional videos across a wide variety of topics, from gardening and cooking to software configuration and sports. In order to enrich the vocabulary, we use transfer learning and pretrain the model on a few large cross-domain datasets in both written and spoken English. We also do preprocessing of transcripts to restore sentence segmentation and punctuation in the output of an ASR system. The results are evaluated with ROUGE and Content-F1 scoring for the How2 and WikiHow datasets. We engage human judges to score a set of summaries randomly selected from a dataset curated from HowTo100M and YouTube. Based on blind evaluation, we achieve a level of textual fluency and utility close to that of summaries written by human content creators. The model beats current SOTA when applied to WikiHow articles that vary widely in style and topic, while showing no performance regression on the canonical CNN/DailyMail dataset. Due to the high generalizability of the model across different styles and domains, it has great potential to improve accessibility and discoverability of internet content. We envision this integrated as a feature in intelligent virtual assistants, enabling them to summarize both written and spoken instructional content upon request.

研究动机与目标

  • 开发一种适用于从 ASR 转录文本生成语音和书面教学内容的通用生成式摘要模型。
  • 解决在摘要对话语言时面临的挑战,包括话语不流畅、填充词和 ASR 输出中的标点错误。
  • 提升模型在烹饪、园艺、软件配置和体育等多样化领域之间的泛化能力。
  • 通过自动指标(ROUGE、Content-F1)和人工评估(流畅性与实用性)综合评估模型性能。
  • 构建一种无偏见、盲测的人工评估框架,以补充自动指标。

提出的方法

  • 在结合了书面和语音教学数据集的基础上,使用迁移学习对 BERTSum 生成式摘要模型进行微调。
  • 使用 spaCy 对 ASR 生成的转录文本进行预处理,以恢复句子分段和纠正标点符号。
  • 在 HowTo100M 和 YouTube 精选数据集上进行训练,其中包含人工校正的转录文本,以提升词汇丰富度和语义连贯性。
  • 采用 ROUGE、BLEU 和 Content-F1 进行自动评估,并通过 30 多名参与者的盲测人工评估,评估摘要的流畅性和真实性。
  • 设计类似图灵测试的分类任务,以区分模型生成的摘要与人工整理的 YouTube 视频描述。
  • 实施双重评估框架:一项用于区分 AI 生成摘要与人类摘要,另一项用于评分对话质量与连贯性。

实验结果

研究问题

  • RQ1基于 BERT 的生成式摘要模型能否生成在流畅性和实用性方面与人类撰写描述相当的语音教学内容摘要?
  • RQ2对 ASR 转录文本进行预处理(如恢复标点和句子边界)在多大程度上提升了生成摘要在连贯性和语法正确性方面的质量?
  • RQ3在跨领域书面与语音数据上进行迁移学习,能在多大程度上提升模型在多样化教学主题上的泛化能力?
  • RQ4在对话语境下,ROUGE 和 Content-F1 等自动指标与人工对摘要质量的判断有多高的相关性?
  • RQ5在真实场景中,盲测人工评估框架能否有效区分 AI 生成摘要与人工整理的摘要?

主要发现

  • 通过盲测人工评估确认,该模型生成的摘要在文本流畅性和实用性方面已接近人类内容创作者的水平。
  • 人工评判者无法可靠区分模型生成的摘要与人工整理的 YouTube 视频描述,图灵测试中无人获得满分,表明生成结果具有高度真实性。
  • 该模型在风格和主题差异较大的 WikiHow 数据集上超越了当前最先进水平(SOTA),同时在标准 CNN/DailyMail 数据集上保持了稳定性能。
  • 通过预处理恢复标点和句子边界显著提升了摘要质量,即使在存在 ASR 错误的情况下,也有效减少了不连贯现象。
  • 该模型在不同领域间展现出强大的泛化能力,涵盖非正式口语表达和正式书面指令。
  • 人工评估发现,模型的主要挑战在于生成语法正确但语义不连贯的句子,这是生成式模型的已知局限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。