[論文レビュー] InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models
InstructZero は、オープンソース LLM に低次元のソフトプロンプトを最適化してブラックボックス LLM のための指示を生成し、API モデルをバックプロパゲーションさせずにゼロショットのタスク性能を改善するようベイズ最適化をガイドする。
Large language models~(LLMs) are instruction followers, but it can be challenging to find the best instruction for different situations, especially for black-box LLMs on which backpropagation is forbidden. Instead of directly optimizing the discrete instruction, we optimize a low-dimensional soft prompt applied to an open-source LLM to generate the instruction for the black-box LLM. On each iteration of the proposed method, which we call InstructZero, a soft prompt is converted into an instruction using the open-source LLM, which is then submitted to the black-box LLM for zero-shot evaluation, and the performance is sent to Bayesian optimization to produce new soft prompts improving the zero-shot performance. We evaluate InstructZero on different combinations of open-source LLMs and APIs including Vicuna and ChatGPT. Our results show that InstructZero outperforms SOTA auto-instruction methods across a variety of downstream tasks. Our code and data are publicly available at https://github.com/Lichang-Chen/InstructZero.
研究の動機と目的
- ブラックボックス LLM のゼロショット性能を向上させるために指示検索を自動化する。
- 組み合わせ的な指示最適化を低次元の連続最適化へ縮約する。
- オープンソース LLM のインコンテキスト学習を活用してタスク特化の指示を生成する。
- 潜在ソフトプロンプトのカーネルを指示の類似性と揃え、最適化を強化する。
提案手法
- タスク指示 v を生成するオープンソース LLM のソフトプロンプト p を学習させて、離散的な指示検索を連続最適化に変換する。
- 計算可能な最適化のために、ソフトプロンプトの次元を d' から d に削減するためにランダム射影を適用する。
- 目的を、ブラックボックス LLM f に v を適用した後のゼロショット性能を測るブラックボックス関数 H(p) として定式化し、H(p) をベイズ最適化で最適化する。
- 潜在空間のプロンプト類似性と指示類似性を整合させる指示結合カーネルを導入し、BO が指示に関連する領域を探索するようにする。
- ガウス過程事前分布と期待改善をBOフレームワークとして用い、事後分布を更新し次のプロンプトを選択する。
- 収束するまで反復して、対象タスクの最適な指示 v* を生み出す。
実験結果
リサーチクエスチョン
- RQ1勾配にアクセスできないブラックボックス LLM に対して、指示最適化をどのように効果的に実行できるか。
- RQ2潜在空間のソフトプロンプトをオープンソース LLM と結合して、ブラックボックスモデル向けに高品質の指示を生成できるか。
- RQ3潜在空間と指示空間を整合させる指示結合カーネルは、ベイズ最適化の効率を改善するか。
- RQ4InstructZero は複数のタスクで最先端の自動指示生成手法を上回ることができるか。
- RQ5より小さなオープンソースモデルを用いて大規模 API LLM の指示を最適化することの影響は何か。
主な発見
- InstructZero は広範なタスクセットでベースライン(APE と Uniform)を大幅に上回る。
- InstructZero 生成指示により ChatGPT のゼロショット性能が向上し、報告設定で BIG-Bench の 32/32 タスクで最先端を達成した。
- 本手法は、より小さなオープンソース LLM による指示最適化によって、より大きなモデルで得られた結果に匹敵または上回ることができる。
- アブレーションにより、ソフトプロンプトの最適化が、手動プロンプトや例示のみを使用する場合に比べて大幅な利得を生むことが示された。
- 可視化により、反復を経て指示が漸進的に改善され、潜在空間での探索-活用の効果的なバランスが示唆される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。