[论文解读] CommonGen: A Constrained Text Generation Dataset Towards Generative Commonsense Reasoning
本文提出了CommonGen,一个约束性文本生成任务及其包含79,000条常识描述的语料库,涵盖35,000个独特的概念组合,旨在评估生成式常识推理能力。该任务要求对未见过的概念组合进行关系推理和组合泛化,揭示了SOTA模型(如T5)与人类表现之间存在显著性能差距,同时展示了其在下游任务(如CommonsenseQA)中的可迁移性。
Recently, large-scale pre-trained language models have demonstrated impressive performance on several commonsense-reasoning benchmark datasets. However, building machines with commonsense to compose realistically plausible sentences remains challenging. In this paper, we present constrained text generation task, CommonGen associated with benchmark dataset, to explicitly test machines for the ability of generative commonsense reasoning. Given set of common concepts (e.g., {dog, frisbee, catch, throw}); the task is to generate coherent sentence describing an everyday scenario using these concepts (e.g., a man throws frisbee and his dog catches it). The CommonGen task is challenging because it inherently requires 1) relational reasoning with background commonsense knowledge, and 2) compositional generalization ability to work on unseen concept combinations. Our dataset, constructed through combination of crowdsourced and existing caption corpora, consists of 79k commonsense descriptions over 35k unique concept-sets. Experiments show that there is large gap between state-of-the-art text generation models (e.g., T5) and human performance. Furthermore, we demonstrate that the learned generative commonsense reasoning capability can be transferred to improve downstream tasks such as CommonsenseQA by generating additional context.
研究动机与目标
- 为解决利用给定概念集合生成符合现实、符合常识的句子的挑战。
- 评估模型在未见过的概念组合上执行关系推理和组合泛化的能力。
- 弥合生成式常识推理中人类水平与模型水平之间的性能差距。
- 构建一个基准语料库,以支持对NLP中生成式常识推理的系统性评估与改进。
提出的方法
- CommonGen任务被定义为:基于给定的一组常见概念(例如,{狗, 飞盘, 接住, 扔}),生成一句连贯的句子来描述一个日常情境。
- 通过结合众包标注与现有的图像字幕语料库构建数据集,以确保常识描述的多样性与真实性。
- 模型在输入概念集合的条件下进行训练,以生成流畅且语境恰当的句子,要求整合背景常识知识。
- 评估采用自动指标与人工评估相结合的方式,将模型输出与人类编写的参考文本进行对比。
- 通过将生成的句子作为额外上下文,应用于迁移学习以提升CommonsenseQA任务的性能。
- 对SOTA序列到序列模型(如T5)在CommonGen数据集上进行微调,以评估其生成式常识推理能力。
实验结果
研究问题
- RQ1现有的文本生成模型(如T5)能否在尊重常识关系的前提下,生成包含多样化给定概念且连贯合理的句子?
- RQ2CommonGen语料库在多大程度上暴露了当前模型在未见过的概念组合上的组合泛化能力的局限性?
- RQ3从CommonGen中学到的生成式常识推理能力能否有效迁移到下游任务(如CommonsenseQA)以提升性能?
- RQ4SOTA模型与人类标注者之间的性能差距在不同类型的概念组合和句子结构上如何变化?
主要发现
- 在CommonGen任务上,SOTA文本生成模型(如T5)与人类表现之间存在显著性能差距,表明生成式常识推理仍有巨大改进空间。
- CommonGen语料库有效捕捉了关系推理与组合泛化的复杂性,这从模型在未见过的概念组合上遇到的困难中得到证实。
- 在CommonGen语料库上进行微调可显著提升下游任务(如CommonsenseQA)的性能,证明了所学常识推理能力的可迁移性。
- 人工评估确认,模型生成的句子在流畅性和合理性方面均逊于人类编写的参考文本,尤其在复杂或非显而易见的概念组合中更为明显。
- 通过众包与现有字幕语料库构建语料库,产生了高质量、多样化且真实的常识描述,真实反映了日常情境。
- 任务设计成功隔离并度量了生成式常识推理能力,使其成为未来模型开发的合适基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。