[论文解读] HTLM: Hyper-Text Pre-Training and Prompting of Language Models
HTLM 是一个在对简化 HTML 的大规模网页爬取上训练的超文本语言模型,能够实现结构化提示和自动提示;在零样本提示和微调方面,它与仅文本的语言模型相媲美或超越,并在零样本摘要方面达到最先进水平。
We introduce HTLM, a hyper-text language model trained on a large-scale web crawl. Modeling hyper-text has a number of advantages: (1) it is easily gathered at scale, (2) it provides rich document-level and end-task-adjacent supervision (e.g. class and id attributes often encode document category information), and (3) it allows for new structured prompting that follows the established semantics of HTML (e.g. to do zero-shot summarization by infilling title tags for a webpage that contains the input text). We show that pretraining with a BART-style denoising loss directly on simplified HTML provides highly effective transfer for a wide range of end tasks and supervision levels. HTLM matches or exceeds the performance of comparably sized text-only LMs for zero-shot prompting and fine-tuning for classification benchmarks, while also setting new state-of-the-art performance levels for zero-shot summarization. We also find that hyper-text prompts provide more value to HTLM, in terms of data efficiency, than plain text prompts do for existing LMs, and that HTLM is highly effective at auto-prompting itself, by simply generating the most likely hyper-text formatting for any available training data. We will release all code and models to support future HTLM research.
研究动机与目标
- 激励在预训练中利用超文本信号(HTML 结构)以获得更丰富的文档级监督。
- 引入一种基于简化 HTML(MHTML)的 BART 风格去噪目标,附带尺寸提示以控制输出长度。
- 展示 HTLM 在零样本、少量样本和全微调下向多样任务(摘要、生成、分类)的迁移能力。
- 展示基于 HTML 的提示在现有语言模型中相对于纯文本提示的数据效率优势。
- 通过从数据生成 HTML 格式的提示,展示 HTLM 的自动提示能力。
提出的方法
- 在从 Common Crawl 提取的简化 HTML 数据(MHTML)上预训练 HTLM,数据量为 23 TB。
- 使用 BART-Large 风格的去噪自编码器,带有片段掩码,并附加指定估计掩码文本长度的尺寸提示。
- 在每个掩码之后引入尺寸提示标记,以在提示时控制生成输出长度。
- 使用基于 HTML 的提示和模板(手动与自动提示)来执行生成和分类任务。
- 在摘要基准(Gigaword、CNN/DM、XSum、Reddit TIFU、WebNLG、DART)以及表格到文本数据集(E2E、WebNLG、DART)上评估零-shot 和少-shot 提示。
- 在生成和零样本分类方面将 HTLM 与基线(GPT-2、PEGASUS、RoBERTa、BART、T5)进行比较,并评估在 GLUE 上的微调性能。
实验结果
研究问题
- RQ1HTLM 的超文本预训练与提示在零样本和微调下能否在分类与摘要任务上超越仅文本的语言模型?
- RQ2基于 HTML 的提示是否相对于纯文本提示为现有语言模型带来数据效率的优势?
- RQ3HTLM 能否通过从数据生成有效的 HTML 格式提示来实现自我提示?
- RQ4尺寸提示的引入如何影响提示中的输出长度控制和任务性能?
- RQ5HTLM 对表格到文本和其他结构化自然语言生成任务的影响如何?
主要发现
- HTLM 在零样本提示和全微调的 GLUE 风格分类基准上与仅文本的 LMs 相匹配或超越。
- HTLM 实现了新的零样本摘要的最先进表现,ROUGE-1 分数提升高达 8 点。
- 超文本提示相较于纯文本提示为现有 LMs 提供更高的数据效率,相当于几千个额外训练样本。
- HTLM 可以通过将可用训练数据格式化为 HTML 来自动提示,常常与人工设计的提示相媲美。
- HTLM 在生成与分类任务之间表现出强大的迁移能力,并且在使用基于提示的训练时在微调方面有所改进。
- 基于 HTML 的提示通过尺寸提示实现对输出长度的细粒度控制,从而提高提示鲁棒性和任务性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。