[論文レビュー] xCoT: Cross-lingual Instruction Tuning for Cross-lingual Chain-of-Thought Reasoning
xCoT は高リソース言語から低リソース言語へ推論を転送するためのクロスリンガル指示チューニングを導入し、xICL、Random-CoT、クロスリンガル蒸留を用いて多言語の連鎖思考推論を改善する。
Chain-of-thought (CoT) has emerged as a powerful technique to elicit reasoning in large language models and improve a variety of downstream tasks. CoT mainly demonstrates excellent performance in English, but its usage in low-resource languages is constrained due to poor language generalization. To bridge the gap among different languages, we propose a cross-lingual instruction fine-tuning framework (xCOT) to transfer knowledge from high-resource languages to low-resource languages. Specifically, the multilingual instruction training data (xCOT-INSTRUCT) is created to encourage the semantic alignment of multiple languages. We introduce cross-lingual in-context few-shot learning (xICL)) to accelerate multilingual agreement in instruction tuning, where some fragments of source languages in examples are randomly substituted by their counterpart translations of target languages. During multilingual instruction tuning, we adopt the randomly online CoT strategy to enhance the multilingual reasoning ability of the large language model by first translating the query to another language and then answering in English. To further facilitate the language transfer, we leverage the high-resource CoT to supervise the training of low-resource languages with cross-lingual distillation. Experimental results on previous benchmarks demonstrate the superior performance of xCoT in reducing the gap among different languages, highlighting its potential to reduce the cross-lingual gap.
研究の動機と目的
- 低リソース言語におけるチェイン・オブ・思考推論のクロスリンガルギャップを埋める。
- 言語間で推論を整合させる多言語指示データを作成する。
- クロスリンガル転移を強化するトレーニング戦略(xICL、Random-CoT、xDistill)を開発する。
- MGSM および MSVAMP の多言語ベンチマークで改善を示す。
提案手法
- 英語データを10言語に翻訳しつつ英語出力を維持して、多言語指示データセット xCoT-Instruct を構築する。
- 表現を揃えるためにデモクエリを言語を跨いでコードスイッチすることで、クロスリンガルなイン-context 少数ショット学習(xICL)を導入する。
- 多言語指示チューニング中に Random-CoT を適用:クエリをランダムな中間言語に翻訳し、次に英語で回答する。
- トークンレベルで高リソースの CoT 分布を用いて低リソース出力を監督する、クロスリンガル蒸留(xDistill)を用いる。
- 言語横断の出力を整列させる共同目的関数を持つ多言語ファインチューニング(D = {D^Lk})を用いて訓練する(P(a^Lj|c^Li,q^Li;M))。
- 必要に応じて、ファインチューニング済みモデルによって生成された D' でデータを拡張し、正しい推論経路を強化する。
実験結果
リサーチクエスチョン
- RQ1クロスリンガル指示チューニングは低リソース言語におけるチェイン・オブ・思考推論をどのように改善できるか。
- RQ2多言語のイン-context 学習とコードスイッチを統合することは、推論プロセスの言語間整合性を高めるか。
- RQ3高リソース言語の CoT 監督は蒸留によって低リソース言語へ効果的に転移できるか。
- RQ4Random-CoT と多言語データ拡張が多言語推論精度に与える影響は何か。
- RQ5MGSM および MSVAMP の多言語ベンチマークで xCoT の各構成要素はどのように機能するか。
主な発見
- xCoT はそれぞれ 11 言語と 10 言語で MGSM および MSVAMP ベンチマークで最先端の性能を達成する。
- コードスイッチを伴うクロスリンガル・イン・コンテキスト学習(xICL)は多言語の整合性を大きく向上させる。
- 英語で回答する前にクエリを中間言語に翻訳する Random-CoT は多言語推論を高める。
- クロスリンガル蒸留(xDistill)は高リソースの CoT を用いてトークンレベルで低リソース言語を監督する。
- ベースラインと比較して、xCoT-Instruct の訓練後に多言語表現が共通空間でより整列する。
- 消去法(アブレーション)研究は xICL、mSampling、Random-CoT、および xDistill から累積的な利得を示し、xCoT が最良の全体性能を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。