Skip to main content
QUICK REVIEW

[論文レビュー] Further Boosting BERT-based Models by Duplicating Existing Layers: Some Intriguing Phenomena inside BERT

Wei-Tsung Kao, Tsung-Han Wu|arXiv (Cornell University)|Jan 25, 2020
Topic Modeling被引用数 4
ひとこと要約

本稿では、再訓練を伴わずに既存の層を複製することで、BERTベースのモデルの性能を向上させる単純かつ効果的な手法を提案する。その根拠として、大多数のBERT層が出力において冗長または非常に類似しているという観察を活用している。このアプローチにより、さまざまな自然言語処理(NLP)タスクにおいて下流タスクの性能が顕著に向上し、再訓練なしに層の複製のみでより深いモデルを構築できることが示された。

ABSTRACT

Although Bidirectional Encoder Representations from Transformers (BERT) have achieved tremendous success in many natural language processing (NLP) tasks, it remains a black box, so much previous work has tried to lift the veil of BERT and understand the functionality of each layer. In this paper, we found that removing or duplicating most layers in BERT would not change their outputs. This fact remains true across a wide variety of BERT-based models. Based on this observation, we propose a quite simple method to boost the performance of BERT. By duplicating some layers in the BERT-based models to make it deeper (no extra training required in this step), they obtain better performance in the down-stream tasks after fine-tuning.

研究の動機と目的

  • BERTベースのモデルにおける層の機能的冗長性を調査すること。
  • 再訓練を伴わずに層の複製がモデル性能を向上させられるかどうかを検討すること。
  • 層の複製が下流タスクの性能向上に寄与する理由を理解すること。
  • アーキテクチャの変更を用いた、BERTベースのモデルを効果的かつ単純に強化する手法を提供すること。

提案手法

  • 著者らは、BERTの大多数の層を削除または複製しても出力がほとんど変わらないことから、機能的冗長性が存在することを観察している。
  • BERTベースのモデルにおいて、特定の層を複製することで深さを増し、複製段階では微調整を一切行わない手法を提案している。
  • 複製されたモデルは、標準的手順に従って下流タスクで微調整される。
  • この手法は、さまざまなBERTベースのアーキテクチャに適用可能であり、一貫した向上が得られた。
  • 複製段階では追加のパラメータや学習を必要としないため、計算的にも効率的である。

実験結果

リサーチクエスチョン

  • RQ1なぜBERTの大多数の層が類似した出力を生成するのか、冗長性が示唆されるのか?
  • RQ2再訓練を伴わずに既存の層を複製することで、モデル性能が向上するのか?
  • RQ3層の複製によるモデルの深さの増加が、下流NLPタスクにおける一般化性能の向上に寄与するのか?
  • RQ4層の複製がBERTベースのモデルの表現能力にどのように影響するのか?

主な発見

  • BERTベースのモデルにおける層の複製は、複数の下流NLPタスクにおいて一貫した性能向上をもたらす。
  • 複製プロセス中に追加の学習を一切行わず、アーキテクチャの変更に依存するのみである。
  • この手法は、さまざまなBERTベースのアーキテクチャに適用可能であり、広範な適用可能性を示している。
  • 層の出力が削除や複製に対しても安定しているという観察から、BERTの層設計に顕著な冗長性が存在することが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。