[論文レビュー] Rationale-Augmented Ensembles in Language Models
本論文は、合理的根拠を増強したアンサンブルの統一フレームワークを導入し、複数のモデル生成の合理をサンプリングして統合することで、few-shot in-context learningをNLPタスク全体で堅牢に改善し、微調整なしで、解釈性を高める。
Recent research has shown that rationales, or step-by-step chains of thought, can be used to improve performance in multi-step reasoning tasks. We reconsider rationale-augmented prompting for few-shot in-context learning, where (input -> output) prompts are expanded to (input, rationale -> output) prompts. For rationale-augmented prompting we demonstrate how existing approaches, which rely on manual prompt engineering, are subject to sub-optimal rationales that may harm performance. To mitigate this brittleness, we propose a unified framework of rationale-augmented ensembles, where we identify rationale sampling in the output space as the key component to robustly improve performance. This framework is general and can easily be extended to common natural language processing tasks, even those that do not traditionally leverage intermediate steps, such as question answering, word sense disambiguation, and sentiment analysis. We demonstrate that rationale-augmented ensembles achieve more accurate and interpretable results than existing prompting approaches--including standard prompting without rationales and rationale-based chain-of-thought prompting--while simultaneously improving interpretability of model predictions through the associated rationales.
研究の動機と目的
- 合理的根拠がfew-shot promptingの性能を悪化させる場合と改善させる場合の原因を評価する。
- 合成を介して合理的根拠を堅牢に活用する統一フレームワークを提案する。
- 出力空間で合理的根拠をサンプリングすることで、タスクとモデルを超えて結果が改善されることを示す。
- 追加の学習なしで、推論以外のタスクを含む幅広いNLPタスクへ適用可能性を実証する。
提案手法
- e-SNLI、BoolQ、WiC、SST-2 などのタスクに渡って、few-shot prompting における合理的根拠の質を系統的に検討する。
- モデルのデコーダーからサンプリングして合理的根拠を周辺化する、合理的根拠を増強したアンサンブルを導入する。
- アンサンブル手法を自己整合性、プロンプト順序アンサンブル、入力合理的根拠アンサンブルとして分類する。
- 出力空間でのサンプリングが性能向上の鍵となることを示す。
- PaLM-540B および GPT-3 を用いて、微調整なしで複数のタスクにおいて改善を示す。
- 出力とともに合理的根拠を生成することで解釈性を提供する。
実験結果
リサーチクエスチョン
- RQ1なぜ合理的根拠がfew-shot 学習の性能を悪化させることがあるのか?
- RQ2一般的なNLPタスク全体で合理的根拠を信頼性高く活用して性能を向上させるにはどうすればよいか?
- RQ3統一されたアンサンブルフレームワークは、合理的根拠の質やプロンプトの変動に対して堅牢か?
- RQ4合理的根拠を増強したアンサンブルは、QA、感情分析、パラフレーズ識別などの非伝統的推論タスクを改良できるか?
主な発見
- 出力空間での合理的根拠のサンプリングは、タスクとモデルを問わず一貫してタスク性能を向上させる。
- 合理的根拠を増強したアンサンブルは、ほとんどのタスクで標準 prompting および既存の合理的根拠ベース prompting を上回る。
- 手動の合理的根拠は最適でないことがある。アンサンブルはモデル生成の合理的根拠を用いて性能を回復または超えることができる。
- この手法は、予測とともに合理的根拠を提示することで解釈性を向上させる。
- 結果は、PaLM-540B および GPT-3 の異なるモデルスケールと、few-shot、zero-shot CoT などの評価設定に対して堅牢である。
- SST-2、WiC、QQP など、中間ステップが従来必要とされないタスクにもこのフレームワークは適用可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。