Skip to main content
QUICK REVIEW

[论文解读] Text-to-Text Pre-Training for Data-to-Text Tasks

Mihir Kale, Rastogi, Abhinav|arXiv (Cornell University)|May 21, 2020
Topic Modeling被引用 31
一句话总结

本论文显示,通过 T5 的文本到文本预训练,端到端模型能够超越流水线的数据到文本系统和其他语言模型,并具有较强的域外泛化能力。

ABSTRACT

We study the pre-train + fine-tune strategy for data-to-text tasks. Our experiments indicate that text-to-text pre-training in the form of T5, enables simple, end-to-end transformer based models to outperform pipelined neural architectures tailored for data-to-text generation, as well as alternative language model based pre-training techniques such as BERT and GPT-2. Importantly, T5 pre-training leads to better generalization, as evidenced by large improvements on out-of-domain test sets. We hope our work serves as a useful baseline for future research, as transfer learning becomes ever more prevalent for data-to-text tasks.

研究动机与目标

  • 研究文本到文本预训练在数据到文本任务中的有效性。
  • 评估采用 T5 预训练的端到端 Transformer 模型是否优于流水线方法。
  • 在多数据集上评估预训练模型对域外数据的鲁棒性。
  • 比较 T5 与用于数据到文本任务的替代预训练策略(BERT、GPT-2)。

提出的方法

  • 通过将结构化数据线性化为一个扁平字符串作为输入来将数据到文本任务建模为文本到文本问题。
  • 在数据到文本数据集上微调 T5 变体(Small、Base、Large、3B),使用固定学习率和令牌预算。
  • 使用数据集特定度量(BLEU、METEOR、PARENT)进行评估,且解码采用贪婪搜索。
  • 使用 32k SentencePiece 词汇表,微调步数在 5K–10K 之间,取决于数据集大小。
  • 对 WebNLG 进行人工评估,对比 T5-Large 与 DualEnc 在准确性和自然度方面。

实验结果

研究问题

  • RQ1T5 风格的预训练是否相较于未预训练或以不同方式预训练的模型提升了数据到文本生成?
  • RQ2模型容量(T5 变体)如何影响性能和对域外数据的泛化?
  • RQ3端到端的预训练生成在 WebNLG、ToTTo 和 MultiWoz 上是否比流水线或基于图的方法更鲁棒且有竞争力?

主要发现

  • 用 T5 的预训练在数据到文本基准上取得了最先进的结果,并提升对域外输入的鲁棒性。
  • 端到端的 T5 模型可以在数据到文本任务中超越复杂的流水线系统和基于图的编码器。
  • 在数据到文本生成方面,T5 通常优于 BERT 和 GPT-2 基线,跨数据集。
  • 在 WebNLG 上,T5-Large 实现了最佳的 BLEU/METEOR 分数,并对未见域具有强泛化能力(对未见域有很大提升)。
  • 在 ToTTo 上,T5-3B 比 BERT 基线提高了 5.5 BLEU 和 5.8 PARENT,对非重叠(域外)数据有更大提升。
  • 在 MultiWoz 上,所有 T5 变体均优于未在域内进行预训练的 SC-GPT2,具备更好的人类评估的准确性和自然度(Seen),并在 Unseen 上表现强劲。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。