QUICK REVIEW

[論文レビュー] Making Large Language Models Better Reasoners with Step-Aware Verifier

Yifei Li, Zeqi Lin|arXiv (Cornell University)|Jun 6, 2022

Topic Modeling被引用数 39

ひとこと要約

DiVeRSe は Diverse Prompts、Voting Verifier、そして Step-Aware Verifier を導入し、巨大言語モデルの推論を改善することで、複数のベンチマークで新しい最先端の結果を達成します。

ABSTRACT

Few-shot learning is a challenging task that requires language models to generalize from limited examples. Large language models like GPT-3 and PaLM have made impressive progress in this area, but they still face difficulties in reasoning tasks such as GSM8K, a benchmark for arithmetic problems. To improve their reasoning skills, previous work has proposed to guide the language model with prompts that elicit a series of reasoning steps before giving the final answer, achieving a significant improvement on GSM8K from 17.9% to 58.1% in problem-solving rate. In this paper, we present DIVERSE (Diverse Verifier on Reasoning Step), a novel approach that further enhances the reasoning capability of language models. DIVERSE has three main components: first, it generates diverse prompts to explore different reasoning paths for the same question; second, it uses a verifier to filter out incorrect answers based on a weighted voting scheme; and third, it verifies each reasoning step individually instead of the whole chain. We evaluate DIVERSE on the latest language model code-davinci-002 and show that it achieves new state-of-the-art results on six of eight reasoning benchmarks (e.g., GSM8K 74.4% to 83.2%).

研究の動機と目的

算術やその他の推論タスクにおける巨大言語モデルの少数ショット推論の改善を促進する。
多様な推論経路を誘発し、訓練済みの verifer によって経路を検証し、個々の推論ステップの正確さを帰属させる、3部構成の推論強化フレームワークを提案する。
code-davinci-002 や他の OpenAI モデルを用いて、複数の推論ベンチマークで最先端または高いパフォーマンスを示す。

提案手法

各質問ごとに Diverse Prompts を生成し、各 Prompt から複数の推論経路をサンプルして、多数の推論経路を作成する。
DeBERTa-v3-Large ベースの verifier を訓練して推論経路をスコア付けし、経路スコアを集約して最終回答を選択する voting scheme を実装する。
per-step の正確性信号を割り当てて使用する Step-aware variant の verifier に拡張し、経路評価と最終 voting を改善する。
中間のステップを正の推論経路と比較し、ステップ間の意味的同等性チェックを用いてステップレベルのラベルを抽出する機構を提供する。
DiVeRSe を eight reasoning benchmarks (GSM8K, AsDiv, MultiArith, SVAMP, SingleEq, CommonsenseQA, StrategyQA, CLUTRR) に対して評価する... three OpenAI models (davinci, text-davinci-002, code-davinci-002)。
Diverse Prompts、Voting Verifier、Step-aware Verifier の影響を、ablation 研究と人間評価を通じて分析する。

実験結果

リサーチクエスチョン

RQ1Diverse Prompts と推論経路のサンプリングは、LLM の few-shot 推論の頑健性と精度を向上させることができるか？
RQ2Voting ベースの verifier は、複数の推論経路から正しい回答を選択する際に、マジョリティ投票や単独の verifier よりも優れているか？
RQ3Step-aware verifier は、推論タスク全体で最終精度と解釈性を向上させる具体的なステップ別信号を提供するか？
RQ4異なるモデルファミリを用いた場合、算術、常識推論、帰納推論ベンチマークにおける DiVeRSe の構成要素の性能はどうなるか？

主な発見

DiVeRSe は Greedy Decode および Self-Consistency を、3つの OpenAI モデルすべてと8つの推論タスク全体で一貫して改善する。
GSM8K で code-davinci-002 使用時、DiVeRSe は 83.2% に達し、74.4% からの改善を示し、いくつかのタスク（例：GSM8K、CLUTRR、MultiArith）で顕著な向上を示す。
大規模モデルで評価した場合、算術推論や帰納推論を含む8つの推論ベンチマークのうち6つで新しい最先端の結果を達成（例：CLUTRR が 95.9% を達成）。
Step-aware verifier は一般に性能を向上させ、人間評価はステップレベルのスコアが正しい推論ステップと一致し、推論経路がどこで失敗するかを診断する助けになることを示す。
Diversity of prompts と経路サンプリングを組み合わせた方が最良の結果をもたらし、いずれの戦略を単独で用いるよりも優れている。
ステップレベル分析は有用なステップに部分点を付与し、どのステップが正しい結論または間違った結論に寄与したかの解釈性を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。