QUICK REVIEW

[論文レビュー] True Few-Shot Learning with Language Models

Ethan Perez, Douwe Kiela|arXiv (Cornell University)|May 24, 2021

Topic Modeling参考文献 79被引用数 191

ひとこと要約

この論文は、真の少数ショットモデル選択（非常に少数のラベル付き例から選ばれたプロンプトとハイパーパラメータ）により、ランダムなプロンプトと比較してほとんど利得がなく、しばしば保持-out 検証と比較して劣ることもある、真の少数ショット学習の根本的な課題を浮き彫りにするものだ。

ABSTRACT

Pretrained language models (LMs) perform well on many tasks even when learning from a few examples, but prior work uses many held-out examples to tune various aspects of learning, such as hyperparameters, training objectives, and natural language templates ("prompts"). Here, we evaluate the few-shot ability of LMs when such held-out examples are unavailable, a setting we call true few-shot learning. We test two model selection criteria, cross-validation and minimum description length, for choosing LM prompts and hyperparameters in the true few-shot setting. On average, both marginally outperform random selection and greatly underperform selection based on held-out examples. Moreover, selection criteria often prefer models that perform significantly worse than randomly-selected ones. We find similar results even when taking into account our uncertainty in a model's true performance during selection, as well as when varying the amount of computation and number of examples used for selection. Overall, our findings suggest that prior work significantly overestimated the true few-shot ability of LMs given the difficulty of few-shot model selection.

研究の動機と目的

真の少数ショット学習の意味と、それが言語モデルにおけるプロンプトとハイパーパラメータ選択にとってなぜ重要かを明らかにする。
真の少数ショット設定における一般的なモデル選択基準（クロスバリデーションと最小記述長 MDL）の経験的評価を行う。
真の少数ショットのプロンプトとハイパーパラメータ選択が、保持-outデータを用いる場合と比較してどの程度の差があるかを定量化する。
真の少数ショット規制下で選択されたプロンプトの安定性と転移性を調査する。

提案手法

真の少数ショット学習を形式的に定義し、調整済みフェーズおよびマルチディストリビューション少数ショット設定と区別する。
LOOCVを含むクロスバリデーションとMDL（オンライン符号化）をプロンプトとハイパーパラメータ選択基準として評価する。
9つの言語モデル（さまざまなサイズ）をLAMA/UHNで評価し、追加タスク（RTE、CB、WiC等）を複数のプロンプトを用いて検証する。
プロンプト評価の負の対数尤度で性能を測定し、ダウンストリームタスクでの精度を評価する。
変動性を分析し、分散制御を調べるために保守的CV（α）を計算し、モデル間でのプロンプト転送性を検討する。
真の少数ショット選択における計算と性能のトレードオフを評価する。

実験結果

リサーチクエスチョン

RQ1クロスバリデーションおよびMDLを用いたプロンプト選択は、真の少数ショット設定でどの程度うまくプロンプトを選べるか。
RQ2CV/MDLプロンプト選択はランダムなプロンプトを有意に上回るか、保持-out検証とどのように比較されるか。
RQ3真の少数ショットのハイパーパラメータ選択は、検証で調整されたハイパーパラメータと比べてどのような性能か。
RQ4プロンプト/ハイパーパラメータ選択はモデルサイズやタスクを超えて信頼できるか。
RQ5データ量の増加、計算資源の増加、損失基準の変更は真の少数ショット選択の結果を改善するのか。

主な発見

CV/MDLプロンプト選択は、ランダムなプロンプトに対してほとんど利得をもたらさず、保持-out検証で選ばれた最良のプロンプトと比べて劣ることが多い。
モデルサイズが大きくなるほどプロンプト選択の信頼性が低下し、長尾効果として平均より悪いプロンプトを選んでしまうリスクが高まる。
ADAPETベースの技術では、真の少数ショットのハイパーパラメータ選択は平均以下、または検証で選ばれた最良のハイパーパラメータを下回ることが多い。
LAMA系のタスクや分類タスク（RTE、CB、WiC など）全般で、CV/MDLプロンプトは保持-outや最良プロンプトを下回る傾向が強く、利得のばらつきが大きい。
例数や計算量を増やしても真の少数ショットプロンプト選択の結果が一貫して改善されるとは限らず、分散は依然として大きい。
本研究は、真の少数ショット学習を超えてメタ学習、転移/マルチタスク学習、データ拡張、または教師なしのモデル選択へ移行し、すべてのハイパーパラメータと検証の使用状況を透明に報告することを推奨する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。