QUICK REVIEW

[論文レビュー] Improving Neural Network Quantization without Retraining using Outlier Channel Splitting

Ritchie Zhao, Yuwei Hu|arXiv (Cornell University)|Jan 28, 2019

Advanced Neural Network Applications参考文献 31被引用数 150

ひとこと要約

本論文は Outlier Channel Splitting (OCS) を提案し、 retraining なしで浮動小数点 DNN を量子化、CNNとRNN上で最小限のハードウェアオーバーヘッドでクリッピングを上回る。

ABSTRACT

Quantization can improve the execution latency and energy efficiency of neural networks on both commodity GPUs and specialized accelerators. The majority of existing literature focuses on training quantized DNNs, while this work examines the less-studied topic of quantizing a floating-point model without (re)training. DNN weights and activations follow a bell-shaped distribution post-training, while practical hardware uses a linear quantization grid. This leads to challenges in dealing with outliers in the distribution. Prior work has addressed this by clipping the outliers or using specialized hardware. In this work, we propose outlier channel splitting (OCS), which duplicates channels containing outliers, then halves the channel values. The network remains functionally identical, but affected outliers are moved toward the center of the distribution. OCS requires no additional training and works on commodity hardware. Experimental evaluation on ImageNet classification and language modeling shows that OCS can outperform state-of-the-art clipping techniques with only minor overhead.

研究の動機と目的

実世界のデプロイメントのために再訓練なしの後処理量子化を動機づける。
値の分布を再編成してアウトライヤ駆動の量子化誤差に対処する。
実用的でハードウェアに優しい変換として Outlier Channel Splitting (OCS) を紹介する。
CNN と RNN モデル全体で OCS をクリッピングや他の量子化技術と体系的に比較する。

提案手法

各層で最も絶対値が大きいアウトライヤチャネルを特定する。
選択したチャネルを複製し、機能的等価性を保つためにチャネル出力を半分にするか、出力重みを半分にする（Net2WiderNet 変換）。
分割時に量子化 aware（QA）分割を適用して量子化値を保存する。
各層の分割数を拡張比 r（各層あたり ceil(r*C)）で選択する。
オフラインで重みに OCS を適用し、コモディティハードウェア上で活性化を処理する小さなランタイム層を挿入する。
ImageNet の CNN と言語モデルを横断して、重みと活性化の量子化に対して OCS をクリッピング法（MSE、ACIQ、KL）と比較する。

実験結果

リサーチクエスチョン

RQ1チャネルレベルのアウトライヤ操作を用いて、再訓練なしで後処理量子化が高い精度を達成できるか？
RQ2さまざまなビット幅で、重みと活性化に対するクリッピングベースの量子化と OCS の比較はどうなるか？
RQ3OCS を適用した場合のモデルサイズのオーバーヘッドと量子化精度のトレードオフは？
RQ4ビット幅を跨いで精度を保つには量子化-aware 分割が必要か？
RQ5OCS は CNN 以外の RNN ベース言語モデルにも効果的に拡張できるか？

主な発見

OCS は妥当なネットワーク拡張（小さな r）でウェイト量子化において最先端のクリッピング法を上回ることができる。
QA 分割は量子化結果を保持し、活性化・重みの文脈でナイーブな Net2WiderNet 分割より優れている。
活性化の量子化ではクリッピングが一般に効果的で、OCS は限られた利得をもたらし、動的チャネル選択なしでは効果が小さい。
非常に低い精度では OCS とクリッピングを組み合わせると、どちらか一方だけより優れている。
ImageNet CNN と WikiText-2 の実験は、再訓練なしの改善された後処理量子化を OCS がもたらすことを示し、オーバーヘッドも manageable。
OCS のメモリオーバーヘッドは拡張比 r にほぼ追従し、重み/活性化の成長は約 1+r。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。