[論文レビュー] Solving math word problems with process- and outcome-based feedback
この論文は、推論の痕跡を生成する言語モデルにおけるプロセスベースの監督とアウトカムベースの監督を比較し、報酬モデルを用いた強化学習とプロセス監督がGSM8Kの推論トレースと最終回答の精度で大きな改善をもたらすことを示す。
Recent work has shown that asking language models to generate reasoning steps improves performance on many reasoning tasks. When moving beyond prompting, this raises the question of how we should supervise such models: outcome-based approaches which supervise the final result, or process-based approaches which supervise the reasoning process itself? Differences between these approaches might naturally be expected not just in final-answer errors but also in reasoning errors, which can be difficult to detect and are problematic in many real-world domains such as education. We run the first comprehensive comparison between process- and outcome-based approaches trained on a natural language task, GSM8K. We find that pure outcome-based supervision produces similar final-answer error rates with less label supervision. However, for correct reasoning steps we find it necessary to use process-based supervision or supervision from learned reward models that emulate process-based feedback. In total, we improve the previous best results from 16.8% $ o$ 12.7% final-answer error and 14.0% $ o$ 3.4% reasoning error among final-answer-correct solutions.
研究の動機と目的
- GSM8Kにおいて言語モデルが推論トレースを生成する際のプロセスベース監督とアウトカムベース監督を比較する。
- 監督の種類が最終回答と推論トレース品質に及ぼす影響を評価する。
- 報酬モデルとRLがトレースと最終回答の精度をどの程度改善するかを評価する。
- ステップ毎の正確性のデータ注釈戦略と教育および安全性への影響を検討する。
提案手法
- 大規模LMを用いてGSM8Kの問題に対するステップバイステップの推論トレースを生成する。
- 完全な推論トレース(プロセスベース)の監督微調整による学習と、最終回答(アウトカムベース)での学習を比較する。
- ステップを評価する報酬モデルを訓練する(ORMは最終回答ベースのラベル用、PRMはプロセスベースのラベル用)と専門家反復を用いたRLを適用する。
- RMベースの再ランク付けまたは最終回答の正確性、ORM、PRM信号に対するRLを使用。
- 多数票を用いたサンプリングやRM加重デコーディングでデコードを行う。
- トレースの誤差率と最終回答の誤差率に加え、アブセションとOOD一般化を評価する。
実験結果
リサーチクエスチョン
- RQ1最終回答の監督のみで、推論トレースの監督と同等の最終回答精度を達成できるか。
- RQ2報酬モデルベースの手法がプロセスベースのフィードバックを模倣して、アウトカムベース信号で訓練した場合にトレース誤差を減らせるか。
- RQ3GSM8Kでどのトレーニング regime(SFT、few-shot、RL)がトレースと最終回答の誤差を最も低減するか。
- RQ4アブセション(選択的予測)とOOD一般化が、異なる監督 regime下での性能にどう影響するか。
- RQ5ORMとPRMの報酬は、プロセスベースの判断と一致し、設定全体でトレース品質を向上させるか。
主な発見
| Approach | Base model | Trace | Final-answer |
|---|---|---|---|
| 少数ショット(Wang et al., 2022 ; Wei et al., 2022 ) | PaLM-540B | 14.0 | 25.6 |
| 少数ショット(Lewkowycz et al., 2022 ) | Minerva-540B | - | 21.5 |
| 少数ショット+最終回答 RL(Zelikman, 2022) | GPT-J-6B | - | 89.3 |
| 少数ショット、ORMリランキング(Li et al., 2022 ) | Codex-175B | - | 16.8 |
| ゼロショット(Kojima et al., 2022 ) | InstructGPT-175B | - | 59.3 |
| SFT、ORMリランキング(Cobbe et al., 2021 ) | GPT-175B | - | 45.0 |
| 少数ショット、多数決 | Our Base-70B | - | 41.5 |
| 少数ショット+最終回答 RL、多数決 | Our Base-70B | - | 23.5 |
| SFT、多数決 | Our Base-70B | - | 22.3 |
| 少数ショット、ORMリランキング | Our Base-70B | - | 27.8 |
| 少数ショット+最終回答 RL、ORMリランキング | Our Base-70B | - | 16.6 |
| SFT+最終回答 RL、ORMリランキング | Our Base-70B | - | 14.2 |
| SFT、ORMリランキング | Our Base-70B | - | 14.8 |
| SFT、PRMリランキング | Our Base-70B | - | 14.1 |
| 少数ショット+ORM-RL、ORMリランキング | Our Base-70B | - | 13.8 |
| SFT+ORM-RL、ORMリランキング | Our Base-70B | - | 12.7 |
| SFT+PRM-RL、PRMリランキング | Our Base-70B | - | 12.9 |
- アウトカムベースの監督は、ラベルコストを抑えつつ、プロセスベースの監督と同程度の最終回答精度を達成できる。
- プロセスベースのフィードバックを模倣するよう訓練された報酬モデルは、RLやリランキングで使用した場合、トレースの精度と最終回答の精度を向上させる。
- 監督学習と報酬モデルベースのRLを組み合わせることで最良の結果が得られ、トレース誤差を14.0%から3.4%へ、最終回答誤差を16.8%から12.7%へ低減。
- 30%の問題でアブセーションを許可すると、最終回答の誤差を2.7%に低減できる。
- ORMの予測は、最終回答ラベルよりもプロセスベースのラベルに一致する傾向があり、報酬モデルはプロセスの正確性を捉えられる。
- 低いトレース誤差にはプロセスベースのフィードバック、またはそれを模倣するRM(例:ORM-RLまたはPRM-RL)が必要。
- 選択的予測は、特にトレース誤差が低いモデル(例:PRM/ORMを用いたSFT)において、最終回答誤差を大幅に削減する。
- MATH前提代数(OOD)への一般化は不完全だが、以前のGPT-3結果より改善し、基盤LMとデータに敏感。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。