QUICK REVIEW

[論文レビュー] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Zhenzhong Lan, Mingda Chen|arXiv (Cornell University)|Sep 26, 2019

Topic Modeling参考文献 59被引用数 984

ひとこと要約

ALBERTはパラメータ効率の技術（ファクター化埋め込みと層間パラメータ共有）と文順予測損失を導入し、BERT比ではるかに少ないパラメータでBERTライクモデルをスケールさせ、GLUE、SQuAD、および RACE で最先端の結果を達成します。

ABSTRACT

Increasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases become harder due to GPU/TPU memory limitations and longer training times. To address these problems, we present two parameter-reduction techniques to lower memory consumption and increase the training speed of BERT. Comprehensive empirical evidence shows that our proposed methods lead to models that scale much better compared to the original BERT. We also use a self-supervised loss that focuses on modeling inter-sentence coherence, and show it consistently helps downstream tasks with multi-sentence inputs. As a result, our best model establishes new state-of-the-art results on the GLUE, RACE, and \squad benchmarks while having fewer parameters compared to BERT-large. The code and the pretrained models are available at https://github.com/google-research/ALBERT.

研究の動機と目的

大規模なBERT様式モデルのメモリ使用量を削減し、訓練速度を向上させつつ性能を犠牲にしない。
新しいアーキテクチャ的選択を通じてパラメータ効率を改善し、下流タスクの性能を維持または向上させる。
自己教師付きの文間一貫性をよりよく捉えるために、事前学習を文順予測タスクで強化する。
BERT-largeよりはるかに少ないパラメータで、広く用いられるNLPベンチマークで最先端の結果を示す。

提案手法

語彙埋め込みサイズを隠れ層サイズから切り離すファクター化埋め込みパラメータ化を導入する。
トランスフォーマー層間でパラメータを再利用するために層間パラメータ共有を適用する。
NSPを、文間一貫性をモデル化するより挑戦的な文順予測（SOP）目的に置き換える。
BookCorpusとWikipediaで MLM と SOP 損失を使い、語彙数は30k、入力長は512トークンで事前学習を行う。
GLUE、SQuAD（v1.1/v2.0）、RACEを、埋め込みサイズEと共有スキームを変えたファインチューニングとアブレーションで評価する。
パラメータ効率と訓練速度を定量化するために、複数の構成でBERTベースラインと比較する。）

実験結果

リサーチクエスチョン

RQ1ALBERTは、BERT系変種と比較してパラメータ数を大幅に削減しつつ下流タスクの性能を維持または向上させることができるか？
RQ2層間パラメータ共有は大規模Transformerモデルの訓練を安定化させ、一般化を改善するか？
RQ3SOPに基づく自己教師付き目的は、 NSP よりもマルチセンテンスエンコーディングタスクを可能にする上でより効果적か？
RQ4埋め込みサイズを隠れ層サイズから切り離した場合のモデル性能とスケーラビリティへの影響は？
RQ5ALBERTとBERTのスケール時にデータスループットと訓練時間はどう比較されるか？

主な発見

モデル	パラメータ数	SQuAD1.1	SQuAD2.0	MNLI	SST-2	RACE	平均
BERT base	108M	90.4/83.2	80.4/77.6	84.5	92.8	68.2	4.7x
BERT large	334M	92.2/85.5	85.0/82.2	86.6	93.0	73.9	1.0
ALBERT base	12M	89.3/82.3	80.0/77.1	81.6	90.3	64.0	80.1
ALBERT large	18M	90.6/83.9	82.3/79.4	83.5	91.7	68.5	1.7x
ALBERT xlarge	60M	92.5/86.1	86.1/83.1	86.4	92.4	74.8	0.6x
ALBERT xxlarge	235M	94.1/88.3	88.1/85.1	88.0	95.2	82.3	0.3x

ALBERTはBERT-largeと比較して約18倍のパラメータ削減（例：ALBERT-large 18M 対 BERT-large 334M）ながら、下流パフォーマンスは競合またはそれを上回る。
ALBERT-xxlarge (60Mパラメータ) はいくつかのタスクでBERT-largeを上回り、SQuAD 1.1/2.0、MNLI、SST-2、RACEなどで顕著な改善を示す。
ALBERTは訓練中のデータスループットが高く、同等のベースラインに対して反復回数が1.7倍から3倍速くなることがある（パラメータ数が小さいにもかかわらず）。
ファクター化埋め込み（E=128）と全層パラメータ共有は強力な性能を発揮し、隠れサイズを大きくしてもパラメータ数の爆発を抑えつつ拡張を可能にする。
SOP目的はマルチセンテンスタスクの下流性能を向上させ、Intrinsicおよび下流評価の両方で NSPを上回る。
大規模なALBERTモデルでドロップアウトを除去するとMLM精度と下流結果をさらに改善でき、巨大なTransformerに対する異なる正則化ニーズを示唆する。
GLUE、SQuAD、RACEのベンチマークで、ALBERTは単一モデルおよびアンサンブル設定で最先端の結果を達成する（例：GLUE約89.4、SQuAD 2.0 F1約92.2、RACE約89.4）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。