QUICK REVIEW

[论文解读] Evaluating Machines by their Real-World Language Use

Rowan Zellers, Ari Holtzman|arXiv (Cornell University)|Apr 7, 2020

Topic Modeling参考文献 55被引用 15

一句话总结

本文提出通过语言模型生成针对现实世界、开放式情境的有用建议来评估其表现——引入了TuringAdvice和RedditAdvice数据集，实现动态、持续演化的评估。尽管对大型T5模型进行了微调，仅有9%的生成建议在帮助程度上达到或超过人类水平，揭示了当前语言理解在静态基准之外仍存在显著差距。

ABSTRACT

There is a fundamental gap between how humans understand and use language -- in open-ended, real-world situations -- and today's NLP benchmarks for language understanding. To narrow this gap, we propose to evaluate machines by their success at real-world language use -- which greatly expands the scope of language tasks that can be measured and studied. We introduce TuringAdvice, a new challenge for language understanding systems. Given a complex situation faced by a real person, a machine must generate helpful advice. We make our challenge concrete by introducing RedditAdvice, a dataset and leaderboard for measuring progress. Though we release a training set with 600k examples, our evaluation is dynamic, continually evolving with the language people use: models must generate helpful advice for recently-written situations. Empirical results show that today's models struggle at our task, even those with billions of parameters. The best model, a finetuned T5, writes advice that is at least as helpful as human-written advice in only 9% of cases. This low performance reveals language understanding errors that are hard to spot outside of a generative setting, showing much room for progress.

研究动机与目标

为解决人类在现实语境中的语言使用与静态NLP基准之间日益扩大的脱节问题。
开发一种动态、持续演化的评估框架，以捕捉现实生活中语言理解的复杂性。
不以固定任务衡量语言模型性能，而是评估其为新颖、近期发布的现实情境生成有用建议的能力。
揭示仅在生成式、开放式设置中才会显现的隐藏语言理解缺陷。

提出的方法

提出TuringAdvice：一项新挑战，要求语言模型为复杂、现实世界的情境生成有用建议。
构建RedditAdvice：一个包含60万条真实Reddit帖子的数据集，代表多样化、开放式的生活情境。
采用动态评估协议，持续整合新发布的Reddit内容，以检验模型的泛化能力。
在训练数据上微调一个大型T5模型，并在排行榜上将其输出与人类撰写的建议进行对比评估。
使用人工标注的帮助程度评分衡量模型表现，将模型生成的建议与人类回答进行比较。
设计评估以反映语言使用的动态演变，确保模型能够适应当前、真实的表达方式和语境。

实验结果

研究问题

RQ1大型语言模型能否为现实世界、开放式情境生成与人类撰写的建议同样有用的建议？
RQ2在建议生成任务上的模型表现，与在标准NLP基准上的表现相比如何？
RQ3哪些语言理解缺陷仅在生成式、现实世界设置中显现？
RQ4微调后的模型在多大程度上能泛化到新颖、近期发布的现实情境？
RQ5动态评估在多大程度上揭示了静态基准无法暴露的局限性？

主要发现

表现最佳的模型（微调后的T5）仅在9%的情况下生成的建议在帮助程度上达到或超过人类水平。
即使参数量达数十亿的大型模型在现实世界建议生成任务中仍面临显著挑战，表明存在根本性的理解鸿沟。
在分类或抽取任务中难以察觉的语言理解错误，在生成式、上下文敏感的设置中变得明显。
动态评估设置揭示了模型在应对近期Reddit帖子中出现的新颖、演变中的语言模式时，泛化能力严重不足。
极低的成功率凸显了亟需开发新型基准，以超越标准NLP任务，测试真实世界中的语言使用能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。