Skip to main content
QUICK REVIEW

[論文レビュー] How fine can fine-tuning be? Learning efficient language models

Evani Radiya-Dixit, Xin Wang|arXiv (Cornell University)|Apr 24, 2020
Topic Modeling参考文献 39被引用数 26
ひとこと要約

この論文は、事前学習済み重みをスパース化(一部のパラメータをゼロに設定)することで、BERTのような大規模言語モデルのファインチューニングを極めて効率的に行えることを示している。驚くべきことに、強力な性能を達成するには重みの1–40%しか非ゼロにする必要がなく、これらのスパース構成はタスク固有であるため、性能を損なわずに低メモリ・低計算量の推論が可能になる。

ABSTRACT

State-of-the-art performance on language understanding tasks is now achieved with increasingly large networks; the current record holder has billions of parameters. Given a language model pre-trained on massive unlabeled text corpora, only very light supervised fine-tuning is needed to learn a task: the number of fine-tuning steps is typically five orders of magnitude lower than the total parameter count. Does this mean that fine-tuning only introduces small differences from the pre-trained model in the parameter space? If so, can one avoid storing and computing an entire model for each task? In this work, we address these questions by using Bidirectional Encoder Representations from Transformers (BERT) as an example. As expected, we find that the fine-tuned models are close in parameter space to the pre-trained one, with the closeness varying from layer to layer. We show that it suffices to fine-tune only the most critical layers. Further, we find that there are surprisingly many good solutions in the set of sparsified versions of the pre-trained model. As a result, fine-tuning of huge language models can be achieved by simply setting a certain number of entries in certain layers of the pre-trained parameters to zero, saving both task-specific parameter storage and computational cost.

研究の動機と目的

  • 大規模なモデルサイズにもかかわらず、ファインチューニングされた言語モデルのパラメータが事前学習済みモデルにどれほどパラメータ空間で近いかを調査すること。
  • メモリと計算コストを削減するために、タスク固有のパラメータの少数のみを保存・計算することが可能かどうかを検討すること。
  • 事前学習済み重みのスパース化が、性能を維持しながら効率的な推論を可能にする有効な代替手段であるかどうかを特定すること。
  • 優れたスパースパラメータ構成(スーパー・マスク)が、事前学習済みモデルに特有のものであるのか、それともランダム初期化された重みに対しても見つかるのかを評価すること。
  • 異なるタスク用に学習されたスーパー・マスクが共通のゼロパターンを共有するのか、それとも主にタスク固有であるのかを評価し、マルチタスク学習システムの設計に役立てる。

提案手法

  • パラメータ空間における事前学習済みとファインチューニング済みBERTパラメータのL1距離および角距離を測定して、近接度を定量化する。
  • ファインチューニング中のパラメータ更新量を測定することで、BERTの最も感受性の高い層を同定し、その後これらの層のみをファインチューニングする。
  • 事前学習済み重みの一部をゼロに設定することでスパース性を強制するため、L0ノルム制約を適用する。
  • 事前学習済み重みを固定したまま、各重みのバイナリマスク(0または1)のみを最適化することで、タスク固有のスーパー・マスクを学習する。
  • GLUEベンチマークを用いて、MRPC、RTE、MNLI、QQPを含む多様なNLPタスクで性能を評価する。
  • スパースモデルの性能を、完全なファインチューニングと、事前学習済み重みをシャッフルしたモデルと比較することで、事前学習の役割を隔離する。

実験結果

リサーチクエスチョン

  • RQ1ファインチューニングされた言語モデルのパラメータは、大規模なモデルサイズにもかかわらず、パラメータ空間で事前学習済みモデルにどれほど近いか?
  • RQ2タスク性能を維持しながら、ファインチューニングの代わりに事前学習済み重みのスパース化が有効に機能するか?
  • RQ3事前学習済みモデルのL0近傍に、多数の優れたスパースパラメータ構成(スーパー・マスク)が存在するか?
  • RQ4スーパー・マスクの有効性は、初期重みの事前学習に依存しているのか、それともランダム重みに対しても見つかるのか?
  • RQ5異なるタスク用に学習されたスーパー・マスクは、共通のゼロパターンを共有するのか、それとも主にタスク固有であるのか?

主な発見

  • 大規模なモデルサイズにもかかわらず、ファインチューニング済みBERTモデルは、事前学習済みモデルに非常に近いパラメータ空間に位置しており、L1距離および角距離は小さく保たれている。
  • MRPC や RTE のような単純なタスクでは、事前学習済み重みの1–2%しか非ゼロにしていなくても、F1スコアがそれぞれ91.3および75.8に達するなど、強力な性能が得られる。
  • MNLI や QQP のような複雑なタスクでは、最大12–13%の重みをゼロにしても、競争力のある性能を維持できる。
  • シャッフルされた事前学習済み重みを用いたスパースモデルは顕著に性能が劣り(例:MRPCではF1が91.3から81.2に低下)、優れたスーパー・マスクが事前学習済みパラメータに特有であることが証明された。
  • 異なるタスク用に学習されたスーパー・マスクはゼロパターンの重複がほとんどなく、各タスクに固有のスパース構成が必要であることが示された。
  • 事前学習済みモデルのL0近傍に多数の高性能なスパース構成が存在するため、マスク最適化のみで効率的で低記憶容量のファインチューニングが可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。