Skip to main content
QUICK REVIEW

[論文レビュー] Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

Sheng Shen, Zhen Dong|arXiv (Cornell University)|Sep 12, 2019
Topic Modeling参考文献 42被引用数 52
ひとこと要約

この論文は Q-BERT を提案します。これは Hessian 情報に基づく混合精度とグループ化量子化スキームで、BERT を対象とするもので、SST-2、MNLI、CoNLL-03、SQuAD の各タスクで最大 13 倍のウェイト圧縮と、最大でも 2.3% の精度低下を達成します。埋め込み層とエンコーダ層は異なる量子化を受け、グループ化量子化により劣化をさらに低減します。SQuAD が最も難しいタスクです。

ABSTRACT

Transformer based architectures have become de-facto models used for a range of Natural Language Processing tasks. In particular, the BERT based models achieved significant accuracy gain for GLUE tasks, CoNLL-03 and SQuAD. However, BERT based models have a prohibitive memory footprint and latency. As a result, deploying BERT based models in resource constrained environments has become a challenging task. In this work, we perform an extensive analysis of fine-tuned BERT models using second order Hessian information, and we use our results to propose a novel method for quantizing BERT models to ultra low precision. In particular, we propose a new group-wise quantization scheme, and we use a Hessian based mix-precision method to compress the model further. We extensively test our proposed method on BERT downstream tasks of SST-2, MNLI, CoNLL-03, and SQuAD. We can achieve comparable performance to baseline with at most $2.3\%$ performance degradation, even with ultra-low precision quantization down to 2 bits, corresponding up to $13 imes$ compression of the model parameters, and up to $4 imes$ compression of the embedding table as well as activations. Among all tasks, we observed the highest performance loss for BERT fine-tuned on SQuAD. By probing into the Hessian based analysis as well as visualization, we show that this is related to the fact that current training/fine-tuning strategy of BERT does not converge for SQuAD.

研究の動機と目的

  • Edge デプロイメントのための BERT メモリと待機時間の削減を、許容できない精度低下なしに動機づける。
  • 二次情報である Hessian 情報を用いてファインチューニング済み BERT を分析し、量子化決定を導く。
  • エンコーダ層には Hessian ベースの混合精度方式を、自己注意モジュールにはグループ化量子化方式を提案する。
  • 超低精度量子化を実現し、複数の NLP タスク全体で大幅な圧縮と最小限の性能低下を示す。

提案手法

  • 各層の Hessian スペクトルのトップ固有値を用いてエンコーダ層ごとの Hessian ベースの感度を計算する。
  • Hessian 固有値分布からデータの 10% で計算した平均 lambda_i + 標準偏差 lambda_i に基づく感度指標 Omega_i を定義する。
  • Omega_i に基づいてより感度の高い層により多くのビットを割り当て、混合精度量子化を適用する。
  • MHSA ヘッド内などの各密結合行列をグループに分割し、それぞれ別個の量子化レンジを持つグループ化量子化を導入する。
  • 埋め込みとエンコーダのパラメータを異なる schemes で量子化し、量子化対応のファインチューニングを実施する。
  • uniform な 8-bit 活性化スキームを使用し、DirectQ ベースラインと比較して精度の保持を測定する。

実験結果

リサーチクエスチョン

  • RQ1Hessian 情報(トップ固有値とその分布)は BERT レイヤの量子化感度とどう関連しているか。
  • RQ2Hessian 分析に基づく混合精度は、BERT の ultra-low ビット量子化 (2-4 ビット) で精度を維持できるか。
  • RQ3グループ化量子化は自己注意およびフィードフォワード成分の量子化時に性能を改善するか。
  • RQ4どの BERT モジュール(埋め込み vs エンコーダ層)が量子化に最も敏感で、どのように量子化すべきか。
  • RQ5なぜ SQuAD は他の NLP タスクと比べて量子化が難しいのか。

主な発見

  • Q-BERT は最大 13× のウェイト圧縮と埋め込み・活性化サイズを 4 倍削減しつつ、SST-2、MNLI、CoNLL-03、SQuAD で最大 2.3% の精度低下。
  • Hessian ベースの混合精度 (2/3 または 2/4 ビット) は一様な 2-bit 量子化よりも優れており、特に深い層で顕著;中間のエンコーダ層が最も感度が高く、最後の層はより堅牢。
  • グループ化量子化(128 グループ)は層ごと量子化に比べて精度低下を大幅に低減し、あるグループ数を超えると効果が逓減する。
  • 埋め込みの量子化はエンコーダ重みより感度が高く、位置エンベディングは性能を保持する上で特に重要。
  • SQuAD は共役 Hessian 固有値の分散が大きく、収束時に負の曲率を示し、超低精度の下で精度低下と相関する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。