QUICK REVIEW

[論文レビュー] Poor Man's BERT: Smaller and Faster Transformer Models.

Hassan Sajjad, Fahim Dalvi|arXiv (Cornell University)|Apr 8, 2020

Topic Modeling参考文献 45被引用数 83

ひとこと要約

本稿では、再訓練を必要とせず、パラメータのプルーニングによりBERT、RoBERTa、XLNetモデルをメモリ効率の良い方法で圧縮する手法を提案している。最大40%のパラメータ削減を達成しながら、元の性能の最大98%を維持する。得られたモデルはより小さく高速であり、DistilBERTと同等のサイズと精度を達成しており、BERTとXLNetの直接比較を可能にする。

ABSTRACT

The ongoing neural revolution in Natural Language Processing has recently been dominated by large-scale pre-trained Transformer models, where size does matter: it has been shown that the number of parameters in such a model is typically positively correlated with its performance. Naturally, this situation has unleashed a race for ever larger models, many of which, including the large versions of popular models such as BERT, XLNet, and RoBERTa, are now out of reach for researchers and practitioners without large-memory GPUs/TPUs. To address this issue, we explore a number of memory-light model reduction strategies that do not require model pre-training from scratch. The experimental results show that we are able to prune BERT, RoBERTa and XLNet models by up to 40%, while maintaining up to 98% of their original performance. We also show that our pruned models are on par with DistilBERT in terms of both model size and performance. Finally, our pruning strategies enable interesting comparative analysis between BERT and XLNet.

研究の動機と目的

BERT、XLNet、RoBERTaのような大規模な事前学習済みTransformerモデルの高いメモリおよび計算コストに対処すること。
GPU/TPUリソースが限られた研究者や実務家が最先端のモデルを利用できるようにすること。
再訓練から再び開始する必要なく、モデルサイズと推論時間を削減するプルーニング戦略を開発すること。
同様に圧縮されたバージョンを生成することで、BERTとXLNetの間で公平な比較分析を可能にすること。

提案手法

BERT、RoBERTa、XLNetモデルに対して構造的プルーニングを適用し、完全なアテンションヘッドおよびフィードフォワード層を削除する。
絶対値に基づくマグニチュードプルーニングを用い、重要度の低いパラメータを同定して削除する。
各プルーニングステップの後で繰り返し微調整を適用し、性能の低下を回復する。
パラメータ数を削減しながらも、モデルアーキテクチャおよびアテンションメカニズムを保持する。
高い性能を維持しつつ精度の低下を最小限に抑えるために、プルーニングスケジュールを最適化する。
GLUEベンチマークを含む、下流のNLPタスクにおけるプルーニングの有効性を検証する。

実験結果

リサーチクエスチョン

RQ1再訓練を必要とせず、BERT、RoBERTa、XLNetのような大規模な事前学習済みTransformerモデルのサイズを顕著に削減できるか？
RQ2プルーニングによって、パラメータ数を削減しながらどれほど性能を維持できるか？
RQ3圧縮されたモデルの性能は、DistilBERTのような蒸留モデルと比較して、サイズと精度の面でどの程度同等か？
RQ4圧縮されたBERTおよびXLNetモデルは、アーキテクチャの分析のために意味的に比較可能か？
RQ5最小限の計算コストで高い性能を維持する最適なプルーニング戦略は何か？

主な発見

提案されたプルーニング手法により、BERT、RoBERTa、XLNetモデルのパラメータ数を最大40%まで削減し、性能の低下を最小限に抑えた。
圧縮されたモデルは、下流のNLPタスクにおいて、元の性能の最大98%を維持した。
圧縮されたモデルは、モデルサイズと精度の両面で、DistilBERTと同等の性能を達成した。
同様に圧縮されたバージョンを生成することで、BERTとXLNetの直接比較が可能になった。
複数の下流タスクにわたって、モデルの安定性および一般化性能が維持された。
再訓練から再び開始する必要がなく、複数のアーキテクチャにわたり、このアプローチが有効であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。