Skip to main content
QUICK REVIEW

[論文レビュー] Back to Simplicity: How to Train Accurate BNNs from Scratch?

Joseph Bethge, Haojin Yang|arXiv (Cornell University)|Jun 19, 2019
Advanced Neural Network Applications参考文献 29被引用数 44
ひとこと要約

本論文は、シンプルな訓練戦略とネットワーク設計を用いて scratch から高度に正確なバイナリニューラルネットワークを学習できることを示し、BinaryDenseNetを提案。追加の工夫なしで ImageNet 上の従来の 1-bit CNN を上回る。

ABSTRACT

Binary Neural Networks (BNNs) show promising progress in reducing computational and memory costs but suffer from substantial accuracy degradation compared to their real-valued counterparts on large-scale datasets, e.g., ImageNet. Previous work mainly focused on reducing quantization errors of weights and activations, whereby a series of approximation methods and sophisticated training tricks have been proposed. In this work, we make several observations that challenge conventional wisdom. We revisit some commonly used techniques, such as scaling factors and custom gradients, and show that these methods are not crucial in training well-performing BNNs. On the contrary, we suggest several design principles for BNNs based on the insights learned and demonstrate that highly accurate BNNs can be trained from scratch with a simple training strategy. We propose a new BNN architecture BinaryDenseNet, which significantly surpasses all existing 1-bit CNNs on ImageNet without tricks. In our experiments, BinaryDenseNet achieves 18.6% and 7.6% relative improvement over the well-known XNOR-Network and the current state-of-the-art Bi-Real Net in terms of top-1 accuracy on ImageNet, respectively.

研究の動機と目的

  • 訓練時の従来観を疑問視し、BNN の訓練における一般的なトリックが必要かを検討する。
  • バイナリネットワークにおける情報フローを維持する一般設計原則を特定する。
  • 新しい BNN アーキテクチャ(BinaryDenseNet)を提案・検証し、最新の精度を達成する。
  • ImageNet と CIFAR-10 における scratch からの訓練有効性を実証し、再現性のためのオープンソースコードを提供する。

提案手法

  • スケーリング因子、approxsign、全精度の事前学習など、一般的な BNN 手法を再検討し、 scratch から訓練した場合の影響を実証的に評価する。
  • ショートカット接続を奨励しボトルネックを避けるなど、情報フローを最大化するガイドラインを提案する。
  • DenseNet の概念を二値ネットワークに適用して BinaryDenseNet を開発し、ダウンサンプリング戦略(全精度 vs バイナリ)を評価する。
  • ImageNet 上の既存の 1-bit CNN との比較を行い、SSD を用いた物体検出の予備的検討を実施する。
  • 再現性を確保するため、BMXNet ベースのオープンソース実装を提供する。

実験結果

リサーチクエスチョン

  • RQ1高度に正確な BNN をスケーリングのトリックや事前訓練なしで scratch から訓練できるか?
  • RQ2バイナリネットワークにおける情報フローを最も良く維持する設計原則は何か、精度低下を緩和できるか?
  • RQ3ショートカット接続を増やしボトルネックを回避することは、大規模データセットでの BNN に実証的な効果をもたらすか?
  • RQ4BinaryDenseNet は ImageNet における最先端の 1-bit CNN(例:XNOR-Net、Bi-Real Net)と比較してどうか?

主な発見

  • BinaryDenseNet は ImageNet の 1-bit CNN の中で最先端の精度を達成し、従来手法を著しく上回る。
  • 提案された原則を用いて scratch から訓練した BinaryResNetE18 は、同じアーキテクチャを用いた他の BNN よりも優れており、スケーリング因子は不要。
  • ImageNet では BinaryDenseNet モデルが top-1 精度 60.7%(BinaryDenseNet28)などに達し、より大きいバリアントでも高い一方、Bi-Real Net や XNOR-Net は比較して大幅に低い。
  • 全精度のダウンサンプリング層は ImageNet の精度を大幅に向上させる可能性があり(バイナリ ResNetE18 で約 3%)、ただしモデルサイズが大きくなる。
  • DenseNet に触発した設計のようにショートカット接続を増やすことで情報フローと精度が向上し、ブロックを分割し結合性を拡張する場合に利益が観察される。
  • 提案された設計原則で scratch から訓練すれば、スケーリング、approxsign、FP 事前訓練といったトリックがなくても、従来の 1-bit CNN を上回ることが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。