QUICK REVIEW

[论文解读] TALM: Tool Augmented Language Models

Aaron Parisi, Yao Zhao|arXiv (Cornell University)|May 24, 2022

Topic Modeling被引用 32

一句话总结

TALM 通过文本到文本的工具接口和迭代自对弈循环来引导工具使用，从而使较小的模型在知识和数学任务上优于未增强的较大语言模型，并能够对分布外输入进行泛化。

ABSTRACT

Transformer based language models (LMs) demonstrate increasing performance with scale across a wide variety of tasks. Scale alone however cannot enable models to solve tasks that require access to ephemeral, changing, or private data that was unavailable at training time. Many useful tasks may also benefit from LMs being able to access APIs that read or modify state. In this work, we present Tool Augmented Language Models (TALM), combining a text-only approach to augment language models with non-differentiable tools, and an iterative "self-play" technique to bootstrap performance starting from few tool demonstrations. TALM exhibits strong performance on both a knowledge-heavy QA task and a reasoning oriented math task with simple tools. At a given model scale, TALM significantly outperforms non-augmented LMs. We further demonstrate that TALM successfully performs out-of-distribution inferences on both QA and math tasks, where non-augmented LMs fail. Our results suggest that Tool Augmented Language Models are a promising direction to enrich LMs' capabilities, with less dependence on scale.

研究动机与目标

激发对工具增强的需求，以访问超出训练时知识的实时、私有或会改变状态的数据。
提出用于从语言模型调用任意工具的文本到文本接口。
引入迭代自对弈以用少量标注来启动工具使用示例。
在知识密集型的问答和数学推理任务上评估 TALM，以评估可扩展性和泛化性。

提出的方法

使用预训练的 T5 模型（base、large、XL）在文本到文本工具接口上进行微调、推理和评估。
实现一个文本到文本的工具接口，其中模型输出工具输入和分隔符（如 |result），以调用工具并将输出追加到文本序列。
采用迭代自对弈管道来引导工具使用数据，并逐步提高工具增强的性能，在自对弈期间采样多样化的工具查询。
将工具使用视为策略梯度样学习的特例，用来自多轮自对弈构建的工具使用数据集来更新模型。

实验结果

研究问题

RQ1语言模型是否能够通过文本到文本接口有效地与不可微分的工具进行增强？
RQ2迭代自对弈是否能在不同模型规模下提升工具使用和任务性能？
RQ3与未增强的语言模型相比，工具增强的语言模型是否能对分布外输入和不断变化的知识进行泛化？
RQ4工具增强对知识密集型和推理任务（如自然问答和数学文字题）有何影响？

主要发现

在同一模型规模下，TALM 在知识和数学任务上显著优于未增强的语言模型。
初轮自对弈带来显著增益，随着跨越从 220M 到 3B 参数的多达三轮的观察，增益继续提升。
较小的 TALM 模型在知识密集型任务中更受益于检索类工具，缩小了与更大模型的性能差距。
TALM 通过使用工具访问变化中的知识（如网页/搜索）以及处理普通语言模型难以处理的大数运算，展示了分布外泛化能力。
该方法通过少量标注的工具示范（引导集约为 150 个工具示范）实现自对弈的迭代改进和自我提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。