Skip to main content
QUICK REVIEW

[論文レビュー] Evaluating the Zero-shot Robustness of Instruction-tuned Language Models

Jiuding Sun, Chantal Shaib|arXiv (Cornell University)|Jun 20, 2023
Topic Modeling被引用数 12
ひとこと要約

本論文は、指示にチューニングされたLLMがゼロショット課題において観察されていない指示表現に敏感であることを示し、堅牢性を高めるためのソフトプロンプト整列法を提案する。

ABSTRACT

Instruction fine-tuning has recently emerged as a promising approach for improving the zero-shot capabilities of Large Language Models (LLMs) on new tasks. This technique has shown particular strength in improving the performance of modestly sized LLMs, sometimes inducing performance competitive with much larger model variants. In this paper we ask two questions: (1) How sensitive are instruction-tuned models to the particular phrasings of instructions, and, (2) How can we make them more robust to such natural language variation? To answer the former, we collect a set of 319 instructions manually written by NLP practitioners for over 80 unique tasks included in widely used benchmarks, and we evaluate the variance and average performance of these instructions as compared to instruction phrasings observed during instruction fine-tuning. We find that using novel (unobserved) but appropriate instruction phrasings consistently degrades model performance, sometimes substantially so. Further, such natural instructions yield a wide variance in downstream performance, despite their semantic equivalence. Put another way, instruction-tuned models are not especially robust to instruction re-phrasings. We propose a simple method to mitigate this issue by introducing ``soft prompt'' embedding parameters and optimizing these to maximize the similarity between representations of semantically equivalent instructions. We show that this method consistently improves the robustness of instruction-tuned models.

研究の動機と目的

  • テスト時に新規で意味的に同値な指示に対して、指示チューニング済み言語モデル(Flan, Alpaca, T0 ファミリー)がどのように応答するかを評価する。
  • 未観測の指示を使用した場合の MMLU および Big-Bench Lite ベンチマーク全体での頑健性の劣化を定量化する。
  • 意味的に同等の指示の表現をソフトプロンプトを介して揃えることで頑健性を向上させる、軽量な方法を提案する。
  • モデルサイズがスケールする場合およびインコンテキスト学習(ICL)とともに頑健性が改善するかを評価する。
  • 堅牢性分析のために収集した指示データセットを公開し、将来の研究を支援する。

提案手法

  • 観察されている指示と観察されていない指示を作成するため、75タスクについて36名のNLP研究者から319件の手書き指示を収集する。
  • Flan-T5、Alpaca、T0 変種を用いて、MMLU と Big-Bench Lite で観察済み指示と観察されていない指示を評価する。
  • 観察された指示と観察されていない指示の表現類似性(ペンultimate層、tSNE)を分析する。
  • 意味的に同等の指示を整列させるため、KLダイバージェンスを用いたソフトプロンプト整列目的を導入する。
  • 基盤モデルを凍結したまま、ソフトプロンプトのパラメータ(プレフィックストークン)のみをファインチューニングする。
  • 整列訓練のための paraphrase セットを生成するため、GPT-4 を用いて参照指示をパラフレーズしてパラフレーズ集合を生成する。
Figure 1 : How well do models trained on instruction-tuning datasets generalize to novel instructions (unobserved in training)? Our analysis suggests that they do not do so very well. Above we show a case where pairing an example with an observed instruction yields the correct output, while providin
Figure 1 : How well do models trained on instruction-tuning datasets generalize to novel instructions (unobserved in training)? Our analysis suggests that they do not do so very well. Above we show a case where pairing an example with an observed instruction yields the correct output, while providin

実験結果

リサーチクエスチョン

  • RQ1テスト時の指示表現の変化に対して、指示調整済み言語モデルはどれくらい敏感か?
  • RQ2意味的に同等だが新規の指示は、モデルファミリやベンチマーク全体でゼロショット性能を低下させるか?
  • RQ3完全なモデルファインチューニングを行わずに、軽量な整列目的で unseen instructions への頑健性を改善できるか?
  • RQ4スケーリングやインコンテキスト学習(ICL)で頑健性は改善されるか?

主な発見

  • 観察されていない意味的に同等の指示は、モデルやタスク全体で一貫して精度を低下させる(いくつかの設定で平均的な低下が5ポイントを超える)。
  • 分類タスクは観測されていない指示表現の影響を特に受けやすく、BC/MCタスクでより大きな低下が見られる。
  • 単純なソフトプロンプト整列法(学習可能なプレフィックス埋め込みと KL-divergence 損失を導入)は、頑健性を向上させ、観測されていない指示の性能ギャップを縮小する。
  • 11Bまでのモデルサイズを増加させても頑健性が完全には消失しない。
  • ICLは未観測指示に対する感度をわずかに緩和するが、頑健性のギャップを完全には解消しない。
  • 意味的に同等の指示の表現を明示的に整列させることは、観測された表現と未観測の表現が近づくことと相関して精度の改善につながる。
(a) Average zero-shot performance over all tasks when using observed and unobserved instructions.
(a) Average zero-shot performance over all tasks when using observed and unobserved instructions.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。