QUICK REVIEW

[論文レビュー] Boosted Prompt Ensembles for Large Language Models

Silviu Pitis, Michael R. Zhang|arXiv (Cornell University)|Apr 12, 2023

Topic Modeling被引用数 11

ひとこと要約

この論文はBoosted Promptingを紹介する。段階的アンサンブル法で、難解な領域を覆う少数ショットプロンプトの集合を構築し、訓練時・推論時バリアントを用いて単一プロンプトおよびBaggedアンサンブルを複数の推論ベンチマークで上回る。

ABSTRACT

Methods such as chain-of-thought prompting and self-consistency have pushed the frontier of language model reasoning performance with no additional training. To further improve performance, we propose a prompt ensembling method for large language models, which uses a small dataset to construct a set of few shot prompts that together comprise a ``boosted prompt ensemble''. The few shot examples for each prompt are chosen in a stepwise fashion to be ``hard'' examples on which the previous step's ensemble is uncertain. We show that this outperforms single-prompt output-space ensembles and bagged prompt-space ensembles on the GSM8k and AQuA datasets, among others. We propose both train-time and test-time versions of boosted prompting that use different levels of available annotation and conduct a detailed empirical study of our algorithm.

研究の動機と目的

少量のショット prompting の性能を追加訓練なしで改善する動機づけ。
多様なプロンプトのアンサンブルを構築するための段階的で boosting に着想を得た手法を開発する。
複数の推論ベンチマークにおける訓練時と推論時のブーストを評価する。
初期プロンプト、アンサンブルサイズ、注釈レベルに対する感度を分析する。
boosted prompting が実務でいつどのように役立つかに関する経験的指針を提供する。

提案手法

boosted prompting を提案する：現在のアンサンブルが不確実な“Hard”問題を選択してプロンプトアンサンブルに反復的に追加する。
訓練時には小さなラベル付きデータセット、推論時にはモデルの予測を用いて、情報量の多い難例を特定し新しいプロンプトを生成する。
正解に至った推論経路を選択してプロンプトを構築し、より複雑な推論ステップを強調する。
複数のチェーン・オブ・思考生成を各プロンプトにつき多数回（実験では100サンプル）投票して出力を統合する。
二つの変種：ラベル付きデータを用いた訓練時ブーストと、合意ベースの正しさ基準を用いた推論時ブースト。

実験結果

リサーチクエスチョン

RQ1 boosted prompting は単一プロンプトおよび bagged prompt アンサンブルを難解な推論タスクで上回るか。
RQ2注釈レベル、初期プロンプト品質、アンサンブル構成（n プロンプト、1プロンプトあたりのパス数 m）に対して性能はどう変わるか。
RQ3推定分布のシフトに適応しオンラインのプロンプト空間探索として推論時ブーストを機能させるか。
RQ4より複雑なチェーン・オブ・思考とアンサンブルメンバーの重み付けはどう影響するか。
RQ5ベースLLMモデルの選択は boosted prompting の相対的な利得にどう影響するか。

主な発見

boosted prompting は AQUA、GSM8K、MMLU570、CMATH420、SVAMP の小規模訓練データセットで自己整合性ベースラインを一貫して上回る。
訓練時ブーストは一般的に推論時ブーストよりも優れており、特に真のラベルが利用可能な場合に顕著だが、分布シフト下では推論時ブーストが潜在的な利点を示す。
アンサンブルサイズまたは1プロンプトあたりのサンプル数を増やしても、固定計算資源内では成果はごく僅かに留まる。
候補経路としてより複雑なチェーン・オブ・思考を使用すると、ランダム選択よりも性能が向上する。
推論時ブーストにおいて「十分な合意」閾値を高く設定しすぎると、合意とプロンプトの情報量のトレードオフが生じ、プロンプト品質が低下する。
より強力なベースモデル（例：Davinci、GPT-3.5）を用いたブースト prompting は効果を上げるが、弱いモデル（Curie）では利益が限定的となる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。