QUICK REVIEW

[論文レビュー] Model compression as constrained optimization, with application to neural nets. Part II: quantization

Miguel Á. Carreira-Perpiñán, Yerlan Idelbayev|arXiv (Cornell University)|Jul 13, 2017

Neural Networks and Applications参考文献 21被引用数 23

ひとこと要約

本稿では、実数値のネットワークの学習と、適応的または固定のコードブックを用いた重みの量子化を交互に繰り返す制約付き最適化フレームワークを提案する。この手法は局所最適解への収束を保証し、最小限の精度損失で最先端の圧縮性能を達成する。1重みあたり1ビットまで圧縮可能であり、従来の量子化手法に比べて圧縮比と精度保持の両面で優れている。

ABSTRACT

We consider the problem of deep neural net compression by quantization: given a large, reference net, we want to quantize its real-valued weights using a codebook with $K$ entries so that the training loss of the quantized net is minimal. The codebook can be optimally learned jointly with the net, or fixed, as for binarization or ternarization approaches. Previous work has quantized the weights of the reference net, or incorporated rounding operations in the backpropagation algorithm, but this has no guarantee of converging to a loss-optimal, quantized net. We describe a new approach based on the recently proposed framework of model compression as constrained optimization \citep{Carreir17a}. This results in a simple iterative "learning-compression" algorithm, which alternates a step that learns a net of continuous weights with a step that quantizes (or binarizes/ternarizes) the weights, and is guaranteed to converge to local optimum of the loss for quantized nets. We develop algorithms for an adaptive codebook or a (partially) fixed codebook. The latter includes binarization, ternarization, powers-of-two and other important particular cases. We show experimentally that we can achieve much higher compression rates than previous quantization work (even using just 1 bit per weight) with negligible loss degradation.

研究の動機と目的

最適損失を達成するための原理的かつ収束保証のある、量子化されたニューラルネットワークのトレーニング手法の欠如に対処すること。
制約付き最適化の下で、ネットワーク重みと量子化コードブックを統合的に最適化するフレームワークを構築すること。
モデル精度を保持したまま、高圧縮量子化（バイナリゼーションやトレナリゼーションを含む）を可能にすること。
収束保証のないアドホックな量子化技術とは対照的に、数学的に厳密な代替手法を提供すること。
量子化ネットワークが、顕著な性能低下を伴わずに最大圧縮（例：1重みあたり1ビット）を達成できることを示すこと。

提案手法

量子化された重みがコードブック内に制約される制約付き最適化定式化を用い、重みとコードブックエントリの共同最適化を可能にする。
実数値重みにおける確率的勾配降下と、k-means（適応的コードブック）または最適割り当て（固定コードブック）による量子化を交互に繰り返す「学習・圧縮」（LC）アルゴリズムを採用する。
固定コードブック（例：バイナリゼーション）の場合、最適性条件に基づいて符号ベースの割り当てと、オプションのグローバルスケーリングを用いる。
バイナリゼーションにおける最適なしきい値選択を効率的に実行するアルゴリズムを導入し、絶対値の累積和とアクティブな重み数の平方根に関連する関数を最大化することで実現する。
増大ラグランジュ法を用いて交互最適化ステップを導出し、やや緩い条件下でも局所最適解への収束を保証する。
最適化中に量子化制約を強制するために、増大ラグランジュに二次ペナルティ項を導入する。

実験結果

リサーチクエスチョン

RQ1最小限の損失で、原理的かつ収束保証のある量子化ニューラルネットワークのトレーニング手法を開発できるか？
RQ2コードブックをネットワーク重みと同時に最適化することで、より高い圧縮率と精度を達成できるか？
RQ3本手法は、顕著な精度損失なしに、近似的に最大圧縮（例：1重みあたり1ビット）を達成できるか？
RQ4提案されたLCアルゴリズムは、量子化ネットワーク損失の局所最適解に収束するか？
RQ5圧縮比と精度保持の観点から、従来の量子化技術と比較して、本手法の性能はどのように異なるか？

主な発見

提案された学習・圧縮アルゴリズムは、量子化ネットワーク損失の局所最適解に収束し、従来手法に欠如していた理論的保証を提供する。
本手法は、従来のアプローチよりも顕著に高い圧縮率を達成でき、1重みあたり1ビットまで圧縮可能であり、精度損失は最小限に抑えられる。
バイナリゼーションにおいて、元の重みの再構成誤差を最小化する最適なグローバルスケーリング因子と符号ベースの割り当てが計算可能である。
特に極端なビットレートにおいて、圧縮効率と精度保持の両面で、既存の量子化技術を上回る性能を発揮する。
バイナリゼーションの最適しきい値は、絶対値の累積和を含む関数を最大化することで決定され、量子化制約と整合的である。
本フレームワークは、トレナリゼーション、2の累乗、その他の固定コードブックへ一般化可能であり、柔軟かつ効率的な量子化戦略を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。