QUICK REVIEW

[論文レビュー] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Zhenzhong Lan, Mingda Chen|arXiv (Cornell University)|Sep 26, 2019

Topic Modeling参考文献 49被引用数 4,061

ひとこと要約

ALBERT は因子化埋め込みと層間共有というパラメータ削減技術と、文順予測損失を導入して、より小さく機能的な言語モデルを作り、GLUE、SQuAD、RACE で最先端の結果を、BERT-large より少ないパラメータで達成します。

ABSTRACT

Increasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases become harder due to GPU/TPU memory limitations and longer training times. To address these problems, we present two parameter-reduction techniques to lower memory consumption and increase the training speed of BERT. Comprehensive empirical evidence shows that our proposed methods lead to models that scale much better compared to the original BERT. We also use a self-supervised loss that focuses on modeling inter-sentence coherence, and show it consistently helps downstream tasks with multi-sentence inputs. As a result, our best model establishes new state-of-the-art results on the GLUE, RACE, and \\squad benchmarks while having fewer parameters compared to BERT-large. The code and the pretrained models are available at https://github.com/google-research/ALBERT.

研究の動機と目的

大規模事前学習言語モデルのメモリと学習速度の問題を、性能の大幅な低下なく緩和する。
パラメータ数を劇的に削減しつつ精度を維持または向上させるためのパラメータ削減技術を提案する。
自己教師付きの文間整合性予測損失を導入して、文間整合性のモデリングを強化する。

提案手法

語彙埋め込みを hidden size から分離する因子化埋め込みパラメータ化により、埋め込みパラメータを O(V×H) から O(V×E+E×H) に削減する。
全てのトランスフォーマー層がパラメータを共有する層間共有により、深さに伴うパラメータ増加を抑制する。
次の文予測 NSP) ではなく、文間の一貫性に焦点を当てた文順予測（SOP）損失を導入する。
ALBERT を BookCorpus と English Wikipedia で MLM および SOP 損失を用いて事前学習し、語彙数を 30k、入力長を 512 に設定する。
GLUE、SQuAD、RACE の評価にファインチューニングで臨み、BERT および他のベースラインと整合性のある設定で比較する。

実験結果

リサーチクエスチョン

RQ1ALBERT は、パラメータ数を大幅に削減しても BERT と同等またはそれ以上の性能を達成できるのか。
RQ2層間共有と因子化埋め込みが性能と学習効率に有意な影響を与えるのか。
RQ3コヒーレンスに焦点を当てた事前学習目的（SOP）は NSP/他の目的より下流タスクに有益か。
RQ4モデルサイズ、学習速度、精度のトレードオフが、主要な NLU ベンチマークでどのように現れるのか。

主な発見

ALBERT は BERT-large に比べて最大で 18 倍のパラメータ削減（ALBERT-xxlarge 235M 対 BERT-large 334M）を実現しつつ、複数のタスクで優れた結果を示す。
ALBERT は下流タスクでの顕著な改善を示す：SQuAD v1.1 +1.9、SQuAD v2.0 +3.1、MNLI +1.4、SST-2 +2.2、RACE +8.4（開発セット）を BERT-large と比較。
ALBERT-xxlarge は、より少ないパラメータで GLUE と SQuAD のスコアを高め、トレーニング速度も競合的である；例えば RACE では ALBERT-xxlarge が BERT-large より Avg を 8.4 ポイント改善。
SOP 損失は NSP や他の設定を上回り、複数文エンコーディングタスクで一貫した利益をもたらす（Avg で約 +1% 〜 +2%）。
ドロップアウトを削除し外部データを追加することが、大規模な ALBERT 変種で MLM および下流タスクの性能をさらに向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。