[論文レビュー] Small Models are Valuable Plug-ins for Large Language Models
SuperICL はブラックボックスLLMと局所的に微調整された小型モデルをプラグインとして組み合わせ、標準的なファインチューニングとICLを超える監督付きタスク性能を向上させつつ、安定性と解釈性を向上させる。
Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their weights are often publicly unavailable and their immense sizes make the models difficult to be tuned with common hardware. As a result, effectively tuning these models with large-scale supervised data can be challenging. As an alternative, In-Context Learning (ICL) can only use a small number of supervised examples due to context length limits. In this paper, we propose Super In-Context Learning (SuperICL) which allows black-box LLMs to work with locally fine-tuned smaller models, resulting in superior performance on supervised tasks. Our experiments demonstrate that SuperICL can improve performance beyond state-of-the-art fine-tuned models while addressing the instability problem of in-context learning. Furthermore, SuperICL can enhance the capabilities of smaller models, such as multilinguality and interpretability.
研究の動機と目的
- ブラックボックスな LLM に対して局所的に微調整された小型モデルをプラグインとして活用し、監督付きタスクの性能を向上させる方法を動機づけ、開発する。
- プラグイン予測と信頼度を用いて LLM を導くことで、In-Context Learning (ICL) の不安定性と文脈長の制限に対処する。
- GLUE および XNLI ベンチマーク(多言語設定を含む)での有効性を示す。
- 敵対的攻撃に対する頑健性を探求し、コンポーネントの寄与、例の選択、および文脈内の例の数を分析する。
提案手法
- タスクデータ上で小さなプラグインモデルを微調整する(例:GLUE には RoBERTa-Large、XNLI には XLM-V)。
- 訓練例をサンプリングし、プラグインの予測と信頼度スコアおよび正解ラベルを含めてコンテキストを構築する。
- テスト入力にプラグインのテスト予測(および信頼度)を付加し、LLM に最終ラベルと任意の説明を生成させる。
- GLUE および XNLI で ICL およびプラグインモデル単独と比較して SuperICL を評価し、アブレーション、オーバライド、例の数の感度を分析する。
- 敵対的攻撃(ANLI)に対する頑健性を分析し、意思決定におけるプラグイン信頼度の影響を研究する。
- 異なるプラグインモデル(例:RoBERTa 対 DeBERTa)での性能を比較し、制限事項と今後の潜在的方向性を論じる。
実験結果
リサーチクエスチョン
- RQ1標準的な監督付きベンチマーク(GLUE、XNLI)で、SuperICL は GPT-3.5 ICL およびプラグインモデル単独の両方を上回るか?
- RQ2コンテキスト、プラグイン信頼度スコア、およびテスト入力のプラグイン予測が全体の性能にどう寄与するか(アブレーション分析)?
- RQ3文脈内の例の選択と例の数に対する SuperICL の安定性はどの程度か?
- RQ4多言語転送をどのように扱い、どの言語が恩恵を受けるか、または遅れるか(XNLI 結果)?
- RQ5プラグインの頑健性(敵対的攻撃)が SuperICL の性能に与える影響は何か?
主な発見
| 手法 | MNLI-m | MNLI-mm | SST-2 | QNLI | MRPC | QQP | CoLA | RTE | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| GPT-3.5 ICL | 80.80 | 82.39 | 91.39 | 80.52 | 60.05 | 81.64 | 60.51 | 86.28 | 81.32 |
| RoBERTa-Large | 88.68 | 89.47 | 96.44 | 94.07 | 83.09 | 92.11 | 64.55 | 87.00 | 88.68 |
| SuperICL | 89.31 | 89.61 | 96.79 | 94.16 | 86.03 | 92.14 | 64.57 | 87.73 | 89.90 |
- GLUE では、SuperICL は GPT-3.5 ICL および RoBERTa-Large をそれぞれ平均差分 8.58 点、1.22 点上回る。
- XNLI では、XLM-V と組み合わせた場合多くの言語で有意な改善を示す。ただしウルドゥー語はトークナイゼーションとベースラインの弱さのため改善が見られない。
- アブレーション分析は、効果的な知識移転のために、テスト入力のプラグイン予測、プラグイン信頼度スコア、および文脈内の例を含めることの重要性を示している。
- SuperICL は ICL よりもランダムシード間で安定した性能を示し、分散が小さい。特に MRPC で。
- GPT-3.5 による上書き予測はプラグインの信頼度が低いときに生じやすく、意思決定に信頼度スコアを意味のある形で活用していることを示している。
- より強力なプラグイン(例:DeBERTa)を使用しても SuperICL の利益は依然あるが、プラグインと LLM のギャップが狭まるにつれて利益は減少する。
- 敵対的頑健性の分析から、プラグインへの攻撃が SuperICL を劣化させることが示され、強力なプラグイン攻撃下では ICL が SuperICL を上回る場合もある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。