QUICK REVIEW

[論文レビュー] Training Quantized Nets: A Deeper Understanding

Hao Li, Soham De|arXiv (Cornell University)|Jun 7, 2017

Adversarial Robustness in Machine Learning参考文献 10被引用数 94

ひとこと要約

要約: この論文は理論的観点から量子化ニューラルネットワークの訓練を分析し、確率的丸めとBinaryConnectを比較し、収束保証を証明し、完全量子化手法が貪欲最適化に苦しむ理由を説明する。CIFAR-10/100とImageNetで実験を行う。

ABSTRACT

Currently, deep neural networks are deployed on low-power portable devices by first training a full-precision model using powerful hardware, and then deriving a corresponding low-precision model for efficient inference on such systems. However, training models directly with coarsely quantized weights is a key step towards learning on embedded platforms that have limited computing resources, memory capacity, and power consumption. Numerous recent publications have studied methods for training quantized networks, but these studies have mostly been empirical. In this work, we investigate training methods for quantized neural networks from a theoretical viewpoint. We first explore accuracy guarantees for training methods under convexity assumptions. We then look at the behavior of these algorithms for non-convex problems, and show that training algorithms that exploit high-precision representations have an important greedy search phase that purely quantized training methods lack, which explains the difficulty of training using low-precision arithmetic.

研究の動機と目的

埋め込み型・低精度ハードウェアのために、 scratch 直接訓練を動機づけ分析する。
凸・非凸設定での確率的丸め（SR）とBinaryConnect（BC）の理論的収束結果を開発する。
浮動小数点保持（BC）が最適化を促進する一方で完全量子化法（SR）が停滞する理由を説明する。
非凸問題におけるSRとBCの挙動を比較し、探索-活用ダイナミクスを理解する。
標準アーキテクチャとデータセットで理論を実証する。

提案手法

更新中に適用される量子化演算子Q（決定的または確率的）を用いた量子化訓練を定式化する。
凸設定でのSRの精度 floor が量子化レベルΔ に比例することを示す収束結果を証明する。
目的関数が強凸または二次的である場合にBCが改善した挙動へ収束することを示し、誤差floorを定量化する。
非凸挙動を分析してSRが貪欲な搾取を欠く一方、BCはアニーリングのような改善を示すことを対比する。
CIFAR-10, CIFAR-100, ImageNetでSR-ADAM, BC-ADAM, R-ADAM, Big SR-ADAMを用いてVGG/ResNet系のビンarized 重みを訓練する実験を行う。

実験結果

リサーチクエスチョン

RQ1SRとBinaryConnect（BC）はゼロから量子化ネットワークを訓練する際に収束するか？
RQ2凸および非凸目的の下でSRとBCの精度 floorと収束速度はどうなるか？
RQ3なぜBCはSRのような完全量子化手法より神経ネット訓練で優れることが多いのか？
RQ4非凸最適化中の探索-活用ダイナミクスにおいてSRとBCはどう異なるのか？
RQ5標準的なアーキテクチャの実証結果は理論的予測と一致するか？

主な発見

CIFAR-10	CIFAR-100	ImageNet	WRN-56-2	ResNet-56	ResNet-18
7.97	7.12	8.10	6.62	33.98	36.04
10.36	8.21	8.83	7.17	35.34	52.11
16.95	16.77	19.84	16.04	50.79	77.68
23.33	20.56	26.49	21.58	58.06	88.86
23.99	21.88	33.56	27.90	68.39	91.07

凸設定でSRとBCは最小化子の誤差をO(Δ) の精度範囲内に収束させ、精度の床は量子化レベルに依存する。
二次的（または近似二次的）問題に対してBCは真の解へ収束する可能性があるが、SRは refined stepsize とは独立した精度floor で停滞する。
非凸問題ではSRはBCのような貪欲な搾取段を欠き、BCの学習率が小さくなると最適解近くに集まる iterates が得られる一方、SRは停滞する。
実験ではBC-ADAMがCIFAR-10/100とImageNetで全精度のADAMに時に匹敵する一方、SR-ADAMとR-ADAMは理論と一致する形で劣る。
Big-batch SRは探索効率を高め、局所最小値を小さな学習率で活用できないSRの問題を緩和する。
SRはBCよりもネットワークやデータセット全体で重みの変化を探索しやすく、探索-活用ダイナミクスの理論予測と一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。