Skip to main content
QUICK REVIEW

[論文レビュー] Why Do Pretrained Language Models Help in Downstream Tasks? An Analysis of Head and Prompt Tuning

Colin Wei, Sang Michael Xie|arXiv (Cornell University)|Jun 17, 2021
Topic Modeling参考文献 28被引用数 33
ひとこと要約

この論文は、 latent-variable generative models (HMMs and memory-augmented HMMs) の下で head tuning と prompt tuning を調べることで、事前学習済み言語モデルが下流タスクをどのように支援するかを分析し、回復保証を様々な非退化条件の下で証明し、合成実験で所見を検証する。

ABSTRACT

Pretrained language models have achieved state-of-the-art performance when adapted to a downstream NLP task. However, theoretical analysis of these models is scarce and challenging since the pretraining and downstream tasks can be very different. We propose an analysis framework that links the pretraining and downstream tasks with an underlying latent variable generative model of text -- the downstream classifier must recover a function of the posterior distribution over the latent variables. We analyze head tuning (learning a classifier on top of the frozen pretrained model) and prompt tuning in this setting. The generative model in our analysis is either a Hidden Markov Model (HMM) or an HMM augmented with a latent memory component, motivated by long-term dependencies in natural language. We show that 1) under certain non-degeneracy conditions on the HMM, simple classification heads can solve the downstream task, 2) prompt tuning obtains downstream guarantees with weaker non-degeneracy conditions, and 3) our recovery guarantees for the memory-augmented HMM are stronger than for the vanilla HMM because task-relevant information is easier to recover from the long-term memory. Experiments on synthetically generated data from HMMs back our theoretical findings.

研究の動機と目的

  • テキストの潜在変数生成モデルを基盤として、事前学習と下流タスクを結びつける。
  • 後発事後 latent variables 条件付けられたとき、下流ラベルは単純なヘッドやプロンプトを用いて回復できることを示す。
  • ベーシックな HMM と memory-augmented HMM の下でヘッド調整とプロンプト調整を比較し、タスク関連情報の回復の頑健性を理解する。
  • プロンプト調整が非退化条件を緩和し、回復保証を強化することを示す。
  • 理論的主張を支持する合成データによる実証的検証を提供する。

提案手法

  • データを潜在変数生成モデル(HMM および memory-augmented HMM)でモデル化する。
  • 非退化の下で、正確な条件付きトークン確率に対する線形ヘッドによって下流ラベルが回復できることを証明する(定理 3.3)。
  • ソフトプロンプト調整が非退化性を緩和し、回復を可能にすることを示す(定理 3.6)。
  • 弱い条件の下で注意機構ベースのヘッドがラベルを回復する memory-augmented HMM への分析を拡張する(定理 4.3)。
  • memory-augmented 設定におけるプロンプト調整のさらなる回復保証を提供する(定理 4.6)。
  • 合成生成の HMM データで事前学習された言語モデルを用いて経験的検証を行う。

実験結果

リサーチクエスチョン

  • RQ1事前学習済みモデルの出力に対する線形ヘッドが、HMM ベースのデータ生成過程で下流ラベルを回復できるか?
  • RQ2プロンプト調整は非退化条件を緩和し、ヘッド調整と比較して下流の回復性を改善するか?
  • RQ3memory-augmented HMMはタスク関連情報の回復性を高めるか、注意機構ベースのヘッドは線形ヘッドより優れているか?
  • RQ4プロンプト調整の保証は memory-augmented モデルにも拡張されるか?

主な発見

  • ベーシックな HMM の下では、トークン放出の強い非退化性がある場合、線形ヘッドが下流ラベルを回復できる。
  • ソフトプロンプト調整は非退化性要件を緩和し、より弱い条件で下流回復を可能にする。
  • memory-augmented HMM はベーシックな HMM より強い回復保証を提供し、メモリがアテンションヘッドを介してタスク関連情報の抽出を促進する。
  • memory-augmented 設定では、アテンションベースのヘッドは線形ヘッドより緩い仮定で真のラベルを回復できる。
  • プロンプト調整は、合成データ上でヘッド調整より実証的性能が優れていることを示し、理論的保証と整合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。