[論文レビュー] Multi-Scale Dense Networks for Resource Efficient Image Classification
MSDNetは、密に接続された多スケールの中間分類器を持つ単一のCNNを導入し、いつでもおよび予算制約付きのバッチ画像分類を実現します。計算の再利用と、テスト時のリソース制約下で高精度を維持します。
In this paper we investigate image classification with computational resource limits at test time. Two such settings are: 1. anytime classification, where the network's prediction for a test example is progressively updated, facilitating the output of a prediction at any time; and 2. budgeted batch classification, where a fixed amount of computation is available to classify a set of examples that can be spent unevenly across "easier" and "harder" inputs. In contrast to most prior work, such as the popular Viola and Jones algorithm, our approach is based on convolutional neural networks. We train multiple classifiers with varying resource demands, which we adaptively apply during test time. To maximally re-use computation between the classifiers, we incorporate them as early-exits into a single deep convolutional neural network and inter-connect them with dense connectivity. To facilitate high quality classification early on, we use a two-dimensional multi-scale network architecture that maintains coarse and fine level features all-throughout the network. Experiments on three image-classification tasks demonstrate that our framework substantially improves the existing state-of-the-art in both settings.
研究の動機と目的
- テスト時にリソース制約のある画像分類を促進する( anytime および budgeted batch のシナリオ)。
- 異なる予算に対して再訓練を必要とせず適応的な計算を可能にする単一のCNNアーキテクチャを開発する。
- 密な結合と多スケール特徴を通じて、早期退出分類器が計算を再利用しつつ最終精度を高く維持することを保証する。
提案手法
- 分類器間で特徴を再利用するため、密結合でつながれた中間分類器のカスケードを導入する。
- ネットワーク全体で粗い特徴と細かい特徴を維持する2次元の多スケールアーキテクチャを採用する。
- 分類器を最も粗いスケールにのみ取り付け、クロスエントロピーロスの重み付き和で訓練する。
- 密結合を用いて早期出口が後続の分類器の性能を低下させないようにする。
- 遅延評価とスケール認識のネットワーク縮小を採用してさらなる計算を削減する。
- テスト時の退出を制御する予算認識閾値を用いてエンドツーエンドで訓練する。
実験結果
リサーチクエスチョン
- RQ1再訓練せずに、1つのCNNアーキテクチャが anytime 予測と予算ベースのバッチ分類の適応計算をサポートできるか。
- RQ2密結合とマルチスケール特徴マップは、最終分類器を害することなく有効な早期退出を可能にするか。
- RQ3厳しい計算予算下で、MSDNetは最先端のCNNやアンサンブルと比較してどの程度性能を発揮するか。
- RQ4リソース制約下の推論において、複数のスケールを保持することと計算コストのトレードオフはどのようなものか。
主な発見
- MSDNetは、ImageNetと CIFAR-100 で anytime prediction において、すべての予算で ResNet および DenseNet のアンサンブルを大幅に上回る。
- MSDNetは、ImageNet の FLOPs 0.1×10^10–0.3×10^10 の予算で、ベースラインより約4–8%高い精度を達成。
- 平均予算1.7×10^9 FLOPs で、MSDNet は ImageNet の top-1 精度約75% に到達し、同じ予算の ResNet より約6%高い。
- MSDNet は DenseNets の 2–3× fewer FLOPs で同じ精度を達成する。
- 早期退出は、密結合と多スケール特徴と組み合わせると効果的で、全体の最終精度は退出位置にほとんど依存しなくなる。
- MSDNet は深いアンサンブルの性能と同等を、計算量のごく一部で実現でき、易難画像を跨いだ正確な予算制御をサポートする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。