QUICK REVIEW

[论文解读] Language Models are Multilingual Chain-of-Thought Reasoners

Freda Shi, Mirac Süzgün|arXiv (Cornell University)|Oct 6, 2022

Topic Modeling被引用 52

一句话总结

该论文介绍MGSM，一种基于GSM8K衍生的多语种算术推理基准，并显示如PaLM 540B等大型模型展现出强大的多语种链式推理能力，英语CoT在十种语言中通常超越母语CoT。

ABSTRACT

We evaluate the reasoning abilities of large language models in multilingual settings. We introduce the Multilingual Grade School Math (MGSM) benchmark, by manually translating 250 grade-school math problems from the GSM8K dataset (Cobbe et al., 2021) into ten typologically diverse languages. We find that the ability to solve MGSM problems via chain-of-thought prompting emerges with increasing model scale, and that models have strikingly strong multilingual reasoning abilities, even in underrepresented languages such as Bengali and Swahili. Finally, we show that the multilingual reasoning abilities of language models extend to other tasks such as commonsense reasoning and word-in-context semantic judgment. The MGSM benchmark is publicly available at https://github.com/google-research/url-nlp.

研究动机与目标

用十种语系多样的语言对 GSM8K 进行翻译扩展，形成 MGSM，即一个多语种算术推理基准。
评估大型语言模型在 MGSM 上使用不同提示设置进行多语种链式推理的表现。
评估多语种模型的推理能力是否会迁移到其他任务，如常识推理与上下文中的词语判断。
探究模型规模、示例提示以及语言在预训练中的频次对多语种推理表现的影响。

提出的方法

将 250 个 GSM8K 问题翻译为十种目标语言，形成 MGSM，阿拉伯数字在各语言中保持一致。
在提示设置包括 Direct、Native-CoT、EN-CoT、Translate-EN 的条件下评测 GPT-3 和 PaLM-540B。
使用母语、英语或多语提示中的少-shot 示例来诱发推理。
分析性能随训练数据语言频次和模型规模的变化。
将分析扩展到 XCOPA 和 XL-WiC 基准，使用多语种 CoT 提示。
比较英语中间步骤与母语步骤，以评估跨语言迁移的收益。

实验结果

研究问题

RQ1大型多语种语言模型能否在十种语系截然不同的语言中进行多步算术推理？
RQ2链式推理提示是否能够提升多语种推理能力，英语 CoT 是否有竞争力于母语 CoT？
RQ3模型规模、示例与训练数据语言频次如何影响多语种推理表现？
RQ4多语种推理能力是否扩展到诸如常识推理与上下文中的词语判断等其他推理任务？

主要发现

PaLM-540B 具备中间推理步骤时，在任何被研究的语言中都能解决超过 40% 的 MGSM 问题，包括像孟加拉语和斯瓦希里语这样代表性不足的语言。
EN-CoT 在所有语言中始终与或超过 Native-CoT 的表现，表明英语 CoT 可以成为多语种推理的强基线。
MGSM 结果显示训练数据中的语言频次与推理准确度之间相关性很小， represented 语言取得接近高资源语言的表现。
PaLM-540B 在 XCOPA 上通过四-shot EN-CoT 提示达到新的 state-of-the-art。
带有 EN-CoT 的多语种示例在各语言上提供了有竞争力的结果，特别是在本地示例不可用时。
扩大模型规模通常提高 MGSM 在各语言上的准确性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。