Skip to main content
QUICK REVIEW

[論文レビュー] IR-Net: Forward and Backward Information Retention for Highly Accurate Binary Neural Networks

Haotong Qin, Ruihao Gong|arXiv (Cornell University)|Sep 25, 2019
Advanced Neural Network Applications参考文献 29被引用数 8
ひとこと要約

IR-Netは、前向き伝搬と逆向き伝搬の両方における情報損失を同時に最小化することで、バイナリニューラルネットワークの精度を向上させる新しいフレームワークを提案する。Libraパラメータバイナリゼーションを導入して重みの量子化をバランスよく行い、バックプロパゲーション中に段階的に符号関数を近似するエラー減衰推定器を提案することで、CIFAR-10およびImageNetで最先端の性能を達成した。

ABSTRACT

Weight and activation binarization is an effective approach to deep neural network compression and can accelerate the inference by leveraging bitwise operations. Although many binarization methods have improved the accuracy of the model by minimizing the quantization error in forward propagation, there remains a noticeable performance gap between the binarized model and the full-precision one. Our empirical study indicates that the quantization brings information loss in both forward and backward propagation, which is the bottleneck of training accurate binary neural networks. To address these issues, we propose an Information Retention Network (IR-Net) to retain the information that consists in the forward activations and backward gradients. IR-Net mainly relies on two technical contributions: (1) Libra Parameter Binarization (Libra-PB): simultaneously minimizing both quantization error and information loss of parameters by balanced and standardized weights in forward propagation; (2) Error Decay Estimator (EDE): minimizing the information loss of gradients by gradually approximating the sign function in backward propagation, jointly considering the updating ability and accurate gradients. We are the first to investigate both forward and backward processes of binary networks from the unified information perspective, which provides new insight into the mechanism of network binarization. Comprehensive experiments with various network structures on CIFAR-10 and ImageNet datasets manifest that the proposed IR-Net can consistently outperform state-of-the-art quantization methods.

研究の動機と目的

  • 前向き伝搬と逆向き伝搬の両方における情報損失を分析することで、バイナリゼートとフル精度ニューラルネットワークの間の継続的な精度格差を是正すること。
  • バイナリニューラルネットワークの推論および学習の両過程で情報損失を引き起こす量子化の二重的役割を調査すること。
  • 重要な勾配および活性化信号を保持することでモデル精度を向上させる統合的情報保持フレームワークを構築すること。
  • 前向き伝搬と逆向き伝搬を相互に接続された情報フローとして扱うことで、ネットワークバイナリゼーションのメカニズムに関する新たな知見を提供すること。

提案手法

  • ネットワーク重みのスケールを標準化・バランス化することで、前向き伝搬中の量子化誤差と情報損失を最小化する、Libraパラメータバイナリゼーション(Libra-PB)を導入する。
  • 勾配における量子化誤差を段階的に低減する、符号関数の微分可能近似であるエラー減衰推定器(EDE)を提案する。
  • EDEは訓練エポックに応じて符号関数の近似を動的に調整し、勾配の正確さと最適化の安定性の両立を図る。
  • 重みと勾配の両方の情報保持を同時に最適化することで、バイナリゼーションを損失を伴う操作ではなく、情報保持型変換として扱う。
  • Libra-PBとEDEを統合した統一された学習目的関数を採用し、前向きおよび逆向きパスの両方で信号の整合性を維持する。
  • さまざまなネットワークアーキテクチャにこのフレームワークを適用し、CIFAR-10およびImageNetベンチマークで一貫した性能向上を達成した。

実験結果

リサーチクエスチョン

  • RQ1前向きおよび逆向き伝搬における量子化に起因する情報損失は、バイナリニューラルネットワークの精度にどのように影響するか?
  • RQ2統合的情報保持戦略により、バイナリゼートネットワーク学習中のパラメータと勾配の忠実度を同時に向上させることは可能か?
  • RQ3バランスの取れた重みバイナリゼーションと適応的勾配近似を併用することで、モデル性能をどの程度向上させられるか?
  • RQ4バックプロパゲーション中に符号関数を段階的に近似することで、標準的なバイナリゼーション手法よりも優れた最適化と高い精度が得られるか?

主な発見

  • IR-Netは、CIFAR-10およびImageNetの両データセットで、最先端の量子化手法を常に上回った。
  • 提案されたLibra-PB手法は、パラメータの量子化誤差を低減し、重み分布のバランスを改善することで、より安定した学習を実現した。
  • エラー減衰推定器は、符号関数の近似を段階的に洗練させることで、勾配の情報損失を効果的に低減した。
  • 実験的結果から、前向きおよび逆向き両方の情報損失に対処することで、片方の方向に焦点を当てた手法よりも顕著な精度向上が達成された。
  • 包括的なアブレーションスタディにより、Libra-PBとEDEが相乗的に性能向上に寄与していることが確認された。
  • このフレームワークは、バイナリゼートResNetおよびVGGアーキテクチャで最先端の精度を達成し、ネットワーク構造に一般化可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。