QUICK REVIEW

[論文レビュー] Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

Sheng Shen, Zhen Dong|arXiv (Cornell University)|Sep 12, 2019

Topic Modeling参考文献 42被引用数 52

ひとこと要約

この論文は Q-BERT を提案します。これは Hessian 情報に基づく混合精度とグループ化量子化スキームで、BERT を対象とするもので、SST-2、MNLI、CoNLL-03、SQuAD の各タスクで最大 13 倍のウェイト圧縮と、最大でも 2.3% の精度低下を達成します。埋め込み層とエンコーダ層は異なる量子化を受け、グループ化量子化により劣化をさらに低減します。SQuAD が最も難しいタスクです。

ABSTRACT

Transformer based architectures have become de-facto models used for a range of Natural Language Processing tasks. In particular, the BERT based models achieved significant accuracy gain for GLUE tasks, CoNLL-03 and SQuAD. However, BERT based models have a prohibitive memory footprint and latency. As a result, deploying BERT based models in resource constrained environments has become a challenging task. In this work, we perform an extensive analysis of fine-tuned BERT models using second order Hessian information, and we use our results to propose a novel method for quantizing BERT models to ultra low precision. In particular, we propose a new group-wise quantization scheme, and we use a Hessian based mix-precision method to compress the model further. We extensively test our proposed method on BERT downstream tasks of SST-2, MNLI, CoNLL-03, and SQuAD. We can achieve comparable performance to baseline with at most $2.3\%$ performance degradation, even with ultra-low precision quantization down to 2 bits, corresponding up to $13 imes$ compression of the model parameters, and up to $4 imes$ compression of the embedding table as well as activations. Among all tasks, we observed the highest performance loss for BERT fine-tuned on SQuAD. By probing into the Hessian based analysis as well as visualization, we show that this is related to the fact that current training/fine-tuning strategy of BERT does not converge for SQuAD.

研究の動機と目的

Edge デプロイメントのための BERT メモリと待機時間の削減を、許容できない精度低下なしに動機づける。
二次情報である Hessian 情報を用いてファインチューニング済み BERT を分析し、量子化決定を導く。
エンコーダ層には Hessian ベースの混合精度方式を、自己注意モジュールにはグループ化量子化方式を提案する。
超低精度量子化を実現し、複数の NLP タスク全体で大幅な圧縮と最小限の性能低下を示す。

提案手法

各層の Hessian スペクトルのトップ固有値を用いてエンコーダ層ごとの Hessian ベースの感度を計算する。
Hessian 固有値分布からデータの 10% で計算した平均 lambda_i + 標準偏差 lambda_i に基づく感度指標 Omega_i を定義する。
Omega_i に基づいてより感度の高い層により多くのビットを割り当て、混合精度量子化を適用する。
MHSA ヘッド内などの各密結合行列をグループに分割し、それぞれ別個の量子化レンジを持つグループ化量子化を導入する。
埋め込みとエンコーダのパラメータを異なる schemes で量子化し、量子化対応のファインチューニングを実施する。
uniform な 8-bit 活性化スキームを使用し、DirectQ ベースラインと比較して精度の保持を測定する。

実験結果

リサーチクエスチョン

RQ1Hessian 情報（トップ固有値とその分布）は BERT レイヤの量子化感度とどう関連しているか。
RQ2Hessian 分析に基づく混合精度は、BERT の ultra-low ビット量子化 (2-4 ビット) で精度を維持できるか。
RQ3グループ化量子化は自己注意およびフィードフォワード成分の量子化時に性能を改善するか。
RQ4どの BERT モジュール（埋め込み vs エンコーダ層）が量子化に最も敏感で、どのように量子化すべきか。
RQ5なぜ SQuAD は他の NLP タスクと比べて量子化が難しいのか。

主な発見

Q-BERT は最大 13× のウェイト圧縮と埋め込み・活性化サイズを 4 倍削減しつつ、SST-2、MNLI、CoNLL-03、SQuAD で最大 2.3% の精度低下。
Hessian ベースの混合精度 (2/3 または 2/4 ビット) は一様な 2-bit 量子化よりも優れており、特に深い層で顕著；中間のエンコーダ層が最も感度が高く、最後の層はより堅牢。
グループ化量子化（128 グループ）は層ごと量子化に比べて精度低下を大幅に低減し、あるグループ数を超えると効果が逓減する。
埋め込みの量子化はエンコーダ重みより感度が高く、位置エンベディングは性能を保持する上で特に重要。
SQuAD は共役 Hessian 固有値の分散が大きく、収束時に負の曲率を示し、超低精度の下で精度低下と相関する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。