[论文解读] SummScreen: A Dataset for Abstractive Screenplay Summarization
SummScreen 提供电视连续剧的逐集逐字转录和人工撰写的摘要,以研究抽象式剧本摘要,突出从对话中提取情节的挑战,并引入面向实体的评估指标。Oracle 提取式基线在神经模型之上表现更好,而非 Oracle 的混合方法在忠实度方面具有竞争力,但在内容选择方面尚有改进空间。
We introduce SummScreen, a summarization dataset comprised of pairs of TV series transcripts and human written recaps. The dataset provides a challenging testbed for abstractive summarization for several reasons. Plot details are often expressed indirectly in character dialogues and may be scattered across the entirety of the transcript. These details must be found and integrated to form the succinct plot descriptions in the recaps. Also, TV scripts contain content that does not directly pertain to the central plot but rather serves to develop characters or provide comic relief. This information is rarely contained in recaps. Since characters are fundamental to TV series, we also propose two entity-centric evaluation metrics. Empirically, we characterize the dataset by evaluating several methods, including neural models and those based on nearest neighbors. An oracle extractive approach outperforms all benchmarked models according to automatic metrics, showing that the neural models are unable to fully exploit the input transcripts. Human evaluation and qualitative analysis reveal that our non-oracle models are competitive with their oracle counterparts in terms of generating faithful plot events and can benefit from better content selectors. Both oracle and non-oracle models generate unfaithful facts, suggesting future research directions.
研究动机与目标
- 在叙事性、以对话为驱动的文本中推动抽象式摘要研究,其情节细节散布于转录文本中。
- 提供一个来自电视节目的大规模、分集数据集,以研究长篇、多演员对话和情节整合。
- 引入两种面向实体的评估指标,以评估生成摘要中的角色覆盖和关系。
- 对神经、最近邻和混合方法进行基准测试,以了解当前能力与差距。
提出的方法
- 从 ForeverDreaming 和 TVMegaSite 的转录文本构建 SummScreen,并配以人工撰写的摘要。
- 使用 Longformer 编码器并采用 [EOS] 标记化来处理长文本转录,并输入到 Transformer 解码器。
- 评估最近邻基线(转录到转录、摘要到转录、摘要到摘要)以及神经序列到序列模型。
- 提出使用摘要到转录的内容选择器(BM25)再进行神经生成(BART-large)的混合模型。
- 引入两种面向实体的指标:字符袋(BoC)和字符关系袋(BoR),用于衡量角色覆盖和关系。
- 进行以谓词匹配和角色关系相似性为重点的人类评估。
实验结果
研究问题
- RQ1当前的神经模型和最近邻模型在从长篇电视转录文本中生成忠实的抽象情节摘要方面的表现如何?
- RQ2与纯神经网络或提取式方法相比,内容选择器和混合方法是否能提升抽象式剧本摘要的质量?
- RQ3面向实体的内容对剧本摘要的评估和生成质量有何影响?
- RQ4Oracle 提取式基线与非 Oracle 模型之间是否存在差距?这对内容选择意味着什么?
- RQ5摘要如何在核心情节事件与用于人物发展或搞笑的非情节对话之间取得平衡?
主要发现
- 在各数据集的自动评测指标上,Oracle 提取式方法始终优于所有模型,表明神经模型在内容选择方面仍有改进空间。
- 最近邻模型(特别是摘要到转录)表现强劲并揭示内容选择的有信息的上界。
- 神经模型在通用语义相似性上表现出色,但在面向实体的指标上落后于非 Oracle 基线。
- 带有 Oracle 内容选择器的混合模型在语义和实体相关指标上均有提升,表明内容选择是一个有前景的研究方向。
- 人工评估显示非 Oracle 混合模型在忠实地产生情节事件方面具有竞争力,但无论是 Oracle 还是非 Oracle 模型都可能产生不忠实的事实,指导未来以忠实性为重点的工作。
- SummScreen 在自动评测指标上比 MediaSum 更难,凸显了长篇、多说话者、叙事转录文本的挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。