[論文レビュー] Forward and Backward Information Retention for Accurate Binary Neural Networks
本稿では、順伝播および逆伝播における情報損失を同時に最小化することで、高精度なバイナリニューラルネットワークを訓練するための新規フレームワークIR-Netを提案する。Libraパラメータバイナリゼーション(Libra-PB)を導入し、エントロピー最大化による重み量子化によって活性化の多様性を保持するとともに、逆伝播中に符号関数を適応的に近似するエラー減衰推定器(EDE)を採用し、1ビットの重みおよび活性化を用いたCIFAR-10およびImageNetにおいて最先端の精度を達成した。
Weight and activation binarization is an effective approach to deep neural network compression and can accelerate the inference by leveraging bitwise operations. Although many binarization methods have improved the accuracy of the model by minimizing the quantization error in forward propagation, there remains a noticeable performance gap between the binarized model and the full-precision one. Our empirical study indicates that the quantization brings information loss in both forward and backward propagation, which is the bottleneck of training accurate binary neural networks. To address these issues, we propose an Information Retention Network (IR-Net) to retain the information that consists in the forward activations and backward gradients. IR-Net mainly relies on two technical contributions: (1) Libra Parameter Binarization (Libra-PB): simultaneously minimizing both quantization error and information loss of parameters by balanced and standardized weights in forward propagation; (2) Error Decay Estimator (EDE): minimizing the information loss of gradients by gradually approximating the sign function in backward propagation, jointly considering the updating ability and accurate gradients. We are the first to investigate both forward and backward processes of binary networks from the unified information perspective, which provides new insight into the mechanism of network binarization. Comprehensive experiments with various network structures on CIFAR-10 and ImageNet datasets manifest that the proposed IR-Net can consistently outperform state-of-the-art quantization methods.
研究の動機と目的
- 順伝播および逆伝播における情報損失が引き起こす、フル精度モデルとバイナリ化モデルの性能差を是正すること。
- 情報理論的統一的視点から、バイナリネットワークにおける順伝播および逆伝播の情報フローを考察すること。
- 順伝播中にモデルの多様性を保持するとともに、逆伝播中に正確で安定した勾配を保証する手法を開発すること。
- 既存の量子化手法と比較して顕著に精度を向上させつつ、高い推論効率を維持すること。
提案手法
- Libraパラメータバイナリゼーション(Libra-PB)は、バイナリゼーションの前段階で重みをバランス化および標準化し、量子化誤差を最小化するとともに情報エントロピーを最大化することで、活性化の多様性を保持する。
- エラー減衰推定器(EDE)は、逆伝播中に符号関数を段階的に近似することで、勾配不一致を低減し、最適化の安定性を向上させる。
- EDEは学習の進行に応じて近似を動的に調整し、初期段階では強い更新能力を、後期段階では正確な勾配を保証する。
- 本手法は追加の単精度浮動小数点演算や複雑な修正を必要とせず、標準的な学習パイプラインにスムーズに統合可能である。
- IR-Netは標準的なバイナリニューラルネットワークフレームワークと互換性があり、1ビットおよび混合精度設定の両方をサポートする。
- 本フレームワークは計算コストが低く、特に推論時においてビットシフト演算が使用されるため、特に効率的である。
実験結果
リサーチクエスチョン
- RQ1順伝播および逆伝播における情報損失が、バイナリニューラルネットワークの精度にどのように影響を与えるか?
- RQ2統一的な情報理論的視点は、深層ネットワークにおけるバイナリゼーション手法の設計をどのように改善できるか?
- RQ3バイナリネットワークにおける量子化誤差を最小化するとともに、逆伝播中に勾配情報の保持を図る方法は何か?
- RQ4固定近似(例:STE)と比較して、適応的勾配近似は訓練の安定性および最終的な精度を向上させ得るか?
- RQ5順伝播および逆伝播の両方で情報保持を高めることで、フル精度モデルとバイナリモデルの間の精度ギャップをどの程度縮小できるか?
主な発見
- ResNet-18を用いたImageNetの1W/1A設定において、IR-Netはトップ1精度58.1%を達成し、Bi-Real Net(56.4%)を上回り、2ビット重み手法(TWN)をも凌駕した。
- ImageNetの1W/32A設定において、IR-Netは66.5%のトップ1精度を達成し、2ビット重みを用いたBWHN(64.3%)およびSQ-TWN(63.8%)を上回った。
- CIFAR-10において、ResNet-18を用いた1W/1A設定でIR-Netは91.5%の精度を達成し、前回SOTA手法(86.5%)を大きく上回った。
- CIFAR-10におけるVGG-Smallの1W/1A設定で、IR-Netは90.4%の精度を達成し、XNOR(89.8%)およびBNN(89.9%)を0.5ポイント以上上回った。
- Raspberry Pi 3Bでは、1ビット重みを用いたResNet-18の推論時間は261.98msにまで短縮され、より高いビット幅を用いたDSQ(551.22ms)およびNCNN(935.51ms)を著しく上回った。
- IR-Netのモデルサイズはわずか4.21MBであり、ビットシフト演算によるオーバーヘッドは無視できるほど小さく、実世界の展開における効率性を裏付けた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。