QUICK REVIEW

[論文レビュー] Language Models are Multilingual Chain-of-Thought Reasoners

Freda Shi, Mirac Süzgün|arXiv (Cornell University)|Oct 6, 2022

Topic Modeling被引用数 52

ひとこと要約

本論文はGSM8Kに由来する多言語算術推論ベンチマークMGSMを導入し、PaLM-540Bのような大規模モデルが多言語の連鎖的推論を強く示すこと、英語のCoTが十言語にわたって母言語のCoTを上回ることが多いことを示している。

ABSTRACT

We evaluate the reasoning abilities of large language models in multilingual settings. We introduce the Multilingual Grade School Math (MGSM) benchmark, by manually translating 250 grade-school math problems from the GSM8K dataset (Cobbe et al., 2021) into ten typologically diverse languages. We find that the ability to solve MGSM problems via chain-of-thought prompting emerges with increasing model scale, and that models have strikingly strong multilingual reasoning abilities, even in underrepresented languages such as Bengali and Swahili. Finally, we show that the multilingual reasoning abilities of language models extend to other tasks such as commonsense reasoning and word-in-context semantic judgment. The MGSM benchmark is publicly available at https://github.com/google-research/url-nlp.

研究の動機と目的

GSM8Kを十の系統的に多様な言語への翻訳を通じて拡張し、MGSMという多言語算術推論ベンチマークを作成する。
大規模言語モデルがMGSM上で多言語の連鎖的推論をさまざまな prompting 設定でどのように行うかを評価する。
多言語モデルの推論能力が常識推論や文脈中的語句判断といった他のタスクへ転移するかを評価する。
モデルスケール、プロンプトの exemplars、言語頻度が多言語推論性能に与える影響を調査する。

提案手法

250個のGSM8K問題を十のターゲット言語へ翻訳し、Arabic numeralsを言語間で一貫させたMGSMを形成する。
Direct、Native-CoT、EN-CoT、Translate-ENを含む prompting 設定の下でGPT-3とPaLM-540Bを評価する。
推論を誘発するためにNative言語、英語、または多言語プロンプトでfew-shot exemplarsを用いる。
事前学習データの言語頻度とモデルスケールの関数としてパフォーマンスを分析する。
XM COPAおよびXL-WiCベンチマークへ多言語CoT promptingを用いて分析を拡張する。
英語の中間ステップと母語ステップを比較してクロスリンガル転移の利点を評価する。

実験結果

リサーチクエスチョン

RQ1大規模な多言語モデルは十の typologically diverse な言語で多段階の算術推論を行えるか？
RQ2連鎖的推論 prompting は多言語推論を改善するか、英語のCoTは母語のCoTと競合できるか？
RQ3モデルスケール、 exemplars、学習データの言語頻度は多言語推論性能にどう影響するか？
RQ4多言語推論能力は常識推論や文脈内語彙判断などの他の推論タスクへ拡張されるか？

主な発見

PaLM-540Bは中間推論ステップを伴う場合、調査対象言語の中で40%以上のMGSM問題を解くことができ、ボリュームが少ない言語（ベンガル語やスワヒリ語など）を含む。
EN-CoT は母語CoT のパフォーマンスとほぼ同等かそれを超えることが多く、英語のCoTが多言語推論の強力な基準となり得ることを示唆する。
MGSMの結果は、トレーニングデータの言語頻度と推論正確性の間にほとんど相関がなく、低リソース言語でも高資源言語に近い性能を達成できることを示す。
PaLM-540BはEN-CoT promptingを用いた4ショットでXCOPAの新たな最先端を達成。
EN-CoTを含む多言語 exemplars は、母語の exemplars が利用できない場合でも言語を問わず競争力のある結果を提供する。
モデルサイズの拡大は一般にMGSM の精度を言語を跨いで改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。