QUICK REVIEW

[論文レビュー] When BERT Plays the Lottery, All Tickets Are Winning

Sai Prasanna, Anna Rogers|arXiv (Cornell University)|May 1, 2020

Topic Modeling参考文献 56被引用数 36

ひとこと要約

この論文は、ファインチューニングされたBERTに対する lottery ticket 仮説を調査し、良いサブネットワークは剪定後も全モデルの性能に匹敵できる一方、多くのサブネットワークは驚くべきことに剪定後も学習可能であることを示しています。さらに、良いサブネットワークは安定性に欠け、明確な言語特化を反映するとは限らないことも示されています。

ABSTRACT

Large Transformer-based models were shown to be reducible to a smaller number of self-attention heads and layers. We consider this phenomenon from the perspective of the lottery ticket hypothesis, using both structured and magnitude pruning. For fine-tuned BERT, we show that (a) it is possible to find subnetworks achieving performance that is comparable with that of the full model, and (b) similarly-sized subnetworks sampled from the rest of the model perform worse. Strikingly, with structured pruning even the worst possible subnetworks remain highly trainable, indicating that most pre-trained BERT weights are potentially useful. We also study the "good" subnetworks to see if their success can be attributed to superior linguistic knowledge, but find them unstable, and not explained by meaningful self-attention patterns.

研究の動機と目的

BERTのファインチューニングにおいて、magnit ude pruning によってトレーニング可能なサブネットワーク（勝利チケット）が含まれているかを評価する。
GLUEタスク全体でBERT自己注意ヘッドとMLPに対する magnit ude pruning と構造化 pruning を比較する。
最良のサブネットワークが言語的に意味のあるパターンと結びつくのか、タスク固有で不安定なのかを判断する。
“悪い”サブネットワークを再訓練して高性能を達成できるかを評価する。

提案手法

9つのGLUEタスクに対してBERT-baseを小文字でファインチューニングする。
デベロップメント性能が全モデルの90%を下回るまで、最小振幅の重みの10%を除去する反復的 magnit ude pruning を適用する。
backward パスから導出された重要度スコアを用いて注意ヘッドとMLPブロックをマスクすることで構造化 pruning を適用する。
剪定後および事前訓練重みで再初期化して再ファインチューニングした後のサブネットワークの性能を測定する。
剪定されたサブネットワークを同等サイズのランダムサブネットワークおよびベースラインアーキテクチャと比較する。
“良い”サブネットワークの安定性をランダムシード間で分析し、存続ヘッドの注意パターン分布を調べる。

実験結果

リサーチクエスチョン

RQ1剪定後、BERT内のサブネットワーク（勝利チケット）は全モデルと同等の性能に達し得るか。
RQ2magnit ude prune と構造化 prune は性能保持と圧縮達成においてどのように比較されるか。
RQ3最良のサブネットワークは解釈可能な言語知識と関連するのか、それともタスク固有のヒューリスティックに関連するのか。
RQ4ファインチューニング時の異なるランダム初期化に対して、良いサブネットワークは安定しているのか。

主な発見

モデル	CoLA	SST-2	MRPC	QQP	STS-B	MNLI	QNLI	RTE	WNLI	平均
多数クラスのベースライン	0.00	0.51	0.68	0.63	0.02	0.35	0.51	0.53	0.56	0.42
CBOW	0.46	0.79	0.75	0.75	0.70	0.57	0.62	0.71	0.56	0.61
BILSTM + GloVe	0.17	0.87	0.77	0.85	0.71	0.66	0.77	0.58	0.56	0.68
BILSTM + ELMO	0.44	0.91	0.70	0.88	0.70	0.68	0.71	0.53	0.56	0.68
‘Bad’ subnetwork (s-pruning)	0.40	0.85	0.67	0.81	0.60	0.80	0.76	0.58	0.53	0.67
‘Bad’ subnetwork (m-pruning)	0.24	0.81	0.67	0.77	0.08	0.61	0.60	0.49	0.49	0.51
Random init + random s-pruning	0.00	0.78	0.67	0.78	0.14	0.63	0.59	0.53	0.50	0.52

良いサブネットワーク（両方の剪定手法から）はGLUEタスクで全モデル性能の約90%に到達できる。
構造化 pruning は magnit ude pruning より大きな圧縮を生み出すことが多いが、両手法ともかなりの性能を維持する。
最悪のサブネットワーク（構造化 pruning 下）でさえ強い性能へ再ファインチューニング可能であり、多くの事前学習重みは広く有用であることを示唆する。
良いサブネットワークはランダムシード間で安定していない；個々の注意ヘッドの明確な言語的役割と一貫して一致するとは限らない。
ランダムに選択された s-pruned サブネットワークは、いくつかのタスクで良いサブネットワークとほぼ同等の性能を示すことがあり、多くの重みが明確に解釈できる言語パターンを超えて転送可能な有用性を持つことを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。