[論文レビュー] STaR: Bootstrapping Reasoning With Reasoning
STaRは、少数の例から推論データセットを反復的に生成・改善することで推論をブートストラップし、自己生成の推論からの学習を改善するために合理化を用います。合理化データでファインチューニングすることにより、算数、常識的QA、そして小学校レベルの数学で顕著な向上をもたらします。
Generating step-by-step "chain-of-thought" rationales improves language model performance on complex reasoning tasks like mathematics or commonsense question-answering. However, inducing language model rationale generation currently requires either constructing massive rationale datasets or sacrificing accuracy by using only few-shot inference. We propose a technique to iteratively leverage a small number of rationale examples and a large dataset without rationales, to bootstrap the ability to perform successively more complex reasoning. This technique, the "Self-Taught Reasoner" (STaR), relies on a simple loop: generate rationales to answer many questions, prompted with a few rationale examples; if the generated answers are wrong, try again to generate a rationale given the correct answer; fine-tune on all the rationales that ultimately yielded correct answers; repeat. We show that STaR significantly improves performance on multiple datasets compared to a model fine-tuned to directly predict final answers, and performs comparably to fine-tuning a 30$ imes$ larger state-of-the-art language model on CommensenseQA. Thus, STaR lets a model improve itself by learning from its own generated reasoning.
研究の動機と目的
- 少数の推論例のセットからブートストラップすることで、言語モデルの推論を動機づけ、改善させる。
- 合理化に基づく生成・フィルタリング・ファインチューニングを行う、より良い次の合理化と解答を生み出すスケーラブルなループを開発する。
- 誤りの後で正解を正当化するよう訓練し、失敗に対処するために合理化を導入する。
- STaRを記号的および自然言語推論タスク全般で評価し、適用範囲の広さを示す。
提案手法
- 事前学習済みのLLMと小さな合理化対応プロンプトセットを用いて、大規模データセットのための合理化と解答を生成する。
- 正解につながる合理化のみを残すよう生成された合理化をフィルタリングし、このデータでファインチューニングを行う。
- 推論と最終解答の双方を改善するため、合理化の生成とファインチューニングを反復的に繰り返す。
- 合理化を導入する:モデルが不正解で解く問題については、正解をヒントとして与え、そのヒントから生成された合理化を用いて訓練データを拡充する。
- 初期の正解と合理化された正解の両方で訓練することも可能で、学習信号を増幅する。
実験結果
リサーチクエスチョン
- RQ1小さな初期セットからの合理化を反復的に生成・ファインチューニングすることで、巨大言語モデルは自らの推論を改善できるか?
- RQ2正解を条件とした推論である合理化を追加することが、推論のブートストラップを加速・改善するか?
- RQ3直接回答のファインチューニングやfew-shot promptingと比較して、STaRは算術、常識的推論、および小学生レベルの数学でどう性能を示すか?
- RQ4タスク全体で、合理化がモデルの性能と合理化の質に与える影響はどの程度か?
主な発見
- STaRは、最終解答を直接予測するようファインチューニングされたモデルよりも、タスク全体で顕著に性能を向上させる。
- CommonsenseQAでは、合理化を用いたSTaRが72.5%の精度に達し、合理化なしの68.8%と比較され、同設定で30倍大きいGPT-3モデルの73.0%と比較される。
- GSM8Kでは、合理化を用いたSTaRが10.7%のテスト精度を達成(合理化なしは10.1%)で、比較的小さな訓練データ量を使用。
- 算術では、16回の反復後に全体精度89.5%を達成し、基準の76.3%を大幅に上回る。
- 合理化は難易度の高い問題への露出を増やし、データセットサイズを増加させることで、新しい問題への汎化を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。