QUICK REVIEW

[论文解读] Language Model Cascades

D. Dohan, Winnie Xu|arXiv (Cornell University)|Jul 21, 2022

Natural Language Processing Techniques被引用 21

一句话总结

该论文提出了一个概率编程框架，将语言模型组合成对字符串值变量进行操作的级联，统一了 scratchpads、校验器、STaR、以及工具使用等技术，在以语言模型驱动的推理范式下工作。它演示了级联如何处理多步推理任务，并概述了实现和实验结果，包括 Twenty Questions 的设置。

ABSTRACT

Prompted models have demonstrated impressive few-shot learning abilities. Repeated interactions at test-time with a single model, or the composition of multiple models together, further expands capabilities. These compositions are probabilistic models, and may be expressed in the language of graphical models with random variables whose values are complex data types such as strings. Cases with control flow and dynamic structure require techniques from probabilistic programming, which allow implementing disparate model structures and inference strategies in a unified language. We formalize several existing techniques from this perspective, including scratchpads / chain of thought, verifiers, STaR, selection-inference, and tool use. We refer to the resulting programs as language model cascades.

研究动机与目标

提供一个统一的概率编程框架，用于具有字符串值变量的语言模型推理。
展示现有 LM 技术（scratchpads、链式推理、verifiers、工具使用）如何融入语言模型级联中。
在多步推理任务上演示该框架并讨论实现细节。
在级联中探索半监督学习和推理策略，以提升推理质量。

提出的方法

定义一个关于字符串值变量的联合概率模型，由语言模型参数化。
将级联表示为基于轨迹的概率程序嵌入在 Python 中，以允许任意控制流和递归。
使用基于采样的推理（如祖先采样）来计算未知字符串的后验。
将 scratchpads/chain-of-thought、半监督学习（STaR）、选择-推理、校验器以及工具使用等技术作为级联中的节点进行整合。
展示一个 Twenty Questions 实验，使用前向采样来评估推理性能，并讨论扩展到多模态和微调的语言模型设定。

实验结果

研究问题

RQ1如何从概率编程角度将不同的 LM 推理方法（scratchpads、verifiers、STaR、工具使用）统一到一个框架中？
RQ2语言模型级联能否处理对字符串值变量的复杂多步推理和动态控制流？
RQ3哪些推理策略和训练方案（如半监督、贝叶斯式）能在级联内提升推理质量？
RQ4级联在需要外部工具或多模态数据的任务中扩展得有多好？
RQ5级联在诸如 Twenty Questions 这样的互动推理任务上的经验潜力如何？

主要发现

级联提供一种灵活的形式化框架，将语言模型组成对字符串的概率程序。
scratchpads、chain-of-thought、verifiers 和工具使用可以表示为级联中的节点和观测。
像 STaR 这样的半监督方法可以被解释为级联框架中的类似 EM 的步骤。
在级联中讨论了自一致性和采样策略作为实际的推断方法。
一项初步的 Twenty Questions 实验，使用一个 137B 的语言模型，表明该方法能解决部分任务（在所报告的设置中为 29%）。
论文讨论了具有字符串值变量的推断的实际挑战，以及使用基于 LM 的提议和未来程序合成方向的潜在解决方案。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。