[論文レビュー] Accurate and Compact Convolutional Neural Networks with Trained Binarization
本論文は、重みと活性化の学習可能スケーリング係数を導入し、高次および長尾型の導関数近似を用い、スケーリング係数に直接L2正則化を適用することで、精度とコンパクト性を向上させるトレーニング可能なバイナリゼーション手法を提案する。この手法は、CIFAR-10で92.3%のトップ1精度、ImageNetでResNet-18を用いて54.2%のトップ1精度を達成し、先行するバイナリネットワークを上回る性能を示す。
Although convolutional neural networks (CNNs) are now widely used in various computer vision applications, its huge resource demanding on parameter storage and computation makes the deployment on mobile and embedded devices difficult. Recently, binary convolutional neural networks are explored to help alleviate this issue by quantizing both weights and activations with only 1 single bit. However, there may exist a noticeable accuracy degradation when compared with full-precision models. In this paper, we propose an improved training approach towards compact binary CNNs with higher accuracy. Trainable scaling factors for both weights and activations are introduced to increase the value range. These scaling factors will be trained jointly with other parameters via backpropagation. Besides, a specific training algorithm is developed including tight approximation for derivative of discontinuous binarization function and $L_2$ regularization acting on weight scaling factors. With these improvements, the binary CNN achieves 92.3% accuracy on CIFAR-10 with VGG-Small network. On ImageNet, our method also obtains 46.1% top-1 accuracy with AlexNet and 54.2% with Resnet-18 surpassing previous works.
研究の動機と目的
- 重みと活性化の1ビット量子化による極端な量子化が引き起こすバイナリ畳み込みニューラルネットワーク(BNN)の精度低下を是正すること。
- ハードウェアにやさしいバイナリ演算を可能にしつつ、モデルのコンパクト性と推論速度を向上させ、高い性能を維持すること。
- XNOR-Netなどの先行研究で用いられる固定スケーリング係数の制限を克服し、重みと活性化の両方のための学習可能スケーリング係数を導入すること。
- 重みスケーリング係数に直接L2正則化を適用することで、訓練の安定性と一般化性能を向上させること。
- 不連続なバイナリゼーション関数を効果的にバックプロパゲーション可能にする実用的な訓練アルゴリズムを開発すること。
提案手法
- バイナリフィルタの有効な値範囲を固定された平均ベースのスケーリングを超えて拡大するために、ネットワーク重みと活性化の両方のトレーニング可能なスケーリング係数を導入する。
- 重みバイナリゼーション関数の導関数に対して高次近似を提案し、活性化バイナリゼーション関数の導関数に対して長尾型近似を提案することで、きつい近似と滑らかなバックプロパゲーションの両立を図る。
- 元の重みではなく、重みスケーリング係数に直接L2正則化を適用することで、一般化性能の向上と過学習の低減を図る。
- 標準的なバックプロパゲーションを用いて、スケーリング係数をネットワークパラメータと同時に最適化することで、エンドツーエンド最適化を可能にする。
- 表現能力を維持するため、最初および最後の層をバイナリゼーションから除外し、バッチ正則化とスケーリング係数をフル精度で保持する。
- 安定した勾配伝搬を可能にしながら高い精度を維持するため、タイトな近似戦略を採用する。
実験結果
リサーチクエスチョン
- RQ1重みと活性化の両方の学習可能スケーリング係数は、固定された平均ベースのスケーリングと比較して、バイナリCNNの精度を向上させることができるか?
- RQ2不連続なバイナリゼーション関数の勾配を効果的に近似することで、バイナリネットワークにおける安定なバックプロパゲーションを実現できるか?
- RQ3重みスケーリング係数に直接L2正則化を適用することで、より良い一般化性能と向上したテスト精度が得られるか?
- RQ4提案手法でトレーニングされたバイナリCNNは、ImageNetのような大規模ベンチマークで、フル精度モデルとの精度ギャップをどの程度縮められるか?
- RQ5提案手法は、標準的なビジョンデータセットで高いモデル圧縮率を達成しながら、競争力のある推論精度を維持できるか?
主な発見
- 提案手法は、VGG-Smallアーキテクチャを用いてCIFAR-10で92.3%のトップ1精度を達成し、先行するバイナリネットワークを上回る性能を示した。
- ImageNetでは、AlexNetを用いて46.1%のトップ1精度、ResNet-18を用いて54.2%のトップ1精度を達成し、すべての先行バイナリネットワーク手法を最大12.0ポイント以上上回った。
- スケーリング係数に導入されたL2正則化のおかげで、検証精度の曲線が標準BNNよりも安定しており、一般化性能の向上が確認された。
- AlexNetでは10.5倍、ResNet-18では14.2倍のモデル圧縮比を達成し、最初/最後の層および正則化層をバイナリゼーションから除外しているにもかかわらず、理論的な32倍の限界に近づいた。
- ImageNetでは、フル精度モデルとバイナリモデルの精度ギャップを約10%にまで縮小し、フル精度ベースラインと比較して強力な性能を示した。
- 勾配近似の改善と正則化のおかげで、標準BNNよりも訓練収束が速く、より安定したことが判明した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。