[論文レビュー] Improved training of binary networks for human pose estimation and image recognition
この論文は、活性化 choices、逆順初期化、漸進的量子化、ネットワークのスタックという一連の手法で二値化ニューラルネットワークを強化し、MPIIポーズ推定とImageNet分類で大幅な精度向上を示し、蒸留戦略を含む。
Big neural networks trained on large datasets have advanced the state-of-the-art for a large variety of challenging problems, improving performance by a large margin. However, under low memory and limited computational power constraints, the accuracy on the same problems drops considerable. In this paper, we propose a series of techniques that significantly improve the accuracy of binarized neural networks (i.e networks where both the features and the weights are binary). We evaluate the proposed improvements on two diverse tasks: fine-grained recognition (human pose estimation) and large-scale image recognition (ImageNet classification). Specifically, we introduce a series of novel methodological changes including: (a) more appropriate activation functions, (b) reverse-order initialization, (c) progressive quantization, and (d) network stacking and show that these additions improve existing state-of-the-art network binarization techniques, significantly. Additionally, for the first time, we also investigate the extent to which network binarization and knowledge distillation can be combined. When tested on the challenging MPII dataset, our method shows a performance improvement of more than 4% in absolute terms. Finally, we further validate our findings by applying the proposed techniques for large-scale object recognition on the Imagenet dataset, on which we report a reduction of error rate by 4%.
研究の動機と目的
- 低リソース条件下で高精度な二値化ネットワークをポーズ推定および画像認識のために動機づけ、実現する。
- MPIIおよびImageNetで従来の最先端を上回る二値化の方法論的改善を提案・検証する。
- 二値化と知識蒸留の組み合わせによる性能向上を探る。
- 本アプローチのタスクやアーキテクチャ間での汎用性を示す。
提案手法
- HourGlassベースのポーズ推定と二値畳み込みブロックの強力な基準モデルを採用する。
- ReLUをPReLUに置換して二値化学習の安定化を図る。
- 特徴を先に、重みを後に二値化する逆順初期化を用いる。
- sgnを tunable tanhベースの関数で近似し、lambdaを徐々に増加させることで滑らかな漸進量子化を実装する。
- 複数の二値HourGlassネットワークをスタックして予測を精練する。
- 実数値または二値教師からソフトラベルを用いて知識蒸留を二値の学生に適用することを検討する。
実験結果
リサーチクエスチョン
- RQ1 改良された活性化、初期化、漸進的量子化、スタッキングを用いた二値化ネットワークの訓練は、ポーズ推定とImageNetにおける実数値ネットワークとの差を縮められるか?
- RQ2 二値化と知識蒸留の組み合わせは性能にどう影響するか?
- RQ3 提案した改善はポーズ推定と大規模画像分類を超えてタスクおよびアーキテクチャに依存しないか?
- RQ4 特徴と重みを漸進的に二値化することが訓練の安定性と精度に与える効果は何か?
主な発見
- MPIIでは、本手法が最先端の二値ベースラインに対して絶対値で最大4.0ポイントのPCKh向上をもたらす。
- ReLUをPReLUに置換すると顕著な精度向上と訓練の安定性向上が得られる。
- 逆順初期化(特徴を先、重みを後)はPCKhに約0.8ポイントの寄与。
- 漸進的二値化はPCKhに追加で約0.4ポイントを提供。
- 二つおよび三つの二値HourGlassネットワークをスタックすると、それぞれ1.5ポイントおよび1.9ポイントの向上。
- 二値化と蒸留の組み合わせが追加の改善をもたらす(バイナリ student と実数教師で最大0.6%、複数スタック構成で追加の利得)。
- ImageNetでは、バイナリネットワークを使用した場合、AlexNetおよびResNet-18の両方において、従来の最先端より絶対誤差率を最大4%低減する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。