[論文レビュー] Compounding the Performance Improvements of Assembled Techniques in a Convolutional Neural Network
この論文は、ResNet/MobileNet の ImageNet での性能を向上させるため、さまざまな CNN のトリック(ネットワークの調整と正則化)を系統的に組み合わせ、 throughput の低下を抑えつつ精度と頑健性を高める。
Recent studies in image classification have demonstrated a variety of techniques for improving the performance of Convolutional Neural Networks (CNNs). However, attempts to combine existing techniques to create a practical model are still uncommon. In this study, we carry out extensive experiments to validate that carefully assembling these techniques and applying them to basic CNN models (e.g. ResNet and MobileNet) can improve the accuracy and robustness of the models while minimizing the loss of throughput. Our proposed assembled ResNet-50 shows improvements in top-1 accuracy from 76.3\% to 82.78\%, mCE from 76.0\% to 48.9\% and mFR from 57.7\% to 32.3\% on ILSVRC2012 validation set. With these improvements, inference throughput only decreases from 536 to 312. To verify the performance improvement in transfer learning, fine grained classification and image retrieval tasks were tested on several public datasets and showed that the improvement to backbone network performance boosted transfer learning performance significantly. Our approach achieved 1st place in the iFood Competition Fine-Grained Visual Recognition at CVPR 2019, and the source code and trained models are available at https://github.com/clovaai/assembled-cnn
研究の動機と目的
- 既存のCNN手法を組み合わせることが実用的な性能向上をもたらすことを動機づけ、検証する。
- チューニングと正則化を組み合わせた場合の精度、頑健性(mCE、mFR)、およびスループットの改善を定量化する。
- 再現性のための反復可能なフレームワークを提供し、コード/モデルを公開する。
提案手法
- CNN 手法をネットワークの調整と正則化に分類する。
- ネットワークの調整(例:ResNet-D、SE、SK、Anti-Alias、BigLittleNet)を正則化手法(AutoAugment、Mixup、Label Smoothing、DropBlock、KD)と体系的に組み合わせる。
- Top-1 精度、mean corruption error (mCE)、mean flip rate (mFR)、および throughput (images/sec) を用いて評価する。
- ResNet ベースのバックボーンを用いて ILSVRC2012 で large-batch SGD、warmup、混合精度、コサイン学習率減衰で訓練する。
- チューニングと正則化の個別および組み合わせの寄与を評価するアブレーション研究。
実験結果
リサーチクエスチョン
- RQ1複数の CNN 関連技術を1つのバックボーンに組み合わせることで、個別使用を超える改善をもたらすことができるか?
- RQ2これらの組み合わせ技術を適用する際の精度、頑健性(mCE、mFR)、およびスループットのトレードオフはどうなるか?
- RQ3FGVC や画像検索などの転移学習タスクに対して利益は一般化するか?
- RQ4特定の調整(例:SK 対 SE、アンチエイリアシング、BigLittleNet)は、精度と推論速度の観点でどのように相互作用するか?
主な発見
- Assembled ResNet-50 は Top-1 82.78%、mCE 48.89%、mFR 32.31%、スループット 312 画像/秒を達成。
- Assembled ResNet-50 はベースライン ResNet-50(Top-1 76.87%、mCE 75.55%、スループット 536)を上回り、頑健性と精度の点で EfficientNet 系に近づく。
- Assemble-ResNet-152 は同様の評価で Top-1 84.19%、mCE 43.27%、スループット 143 画像/秒に達する。
- 正則化とネットワーク調整は相乗的に作用し、頑健性(低い mCE/mFR)と精度を向上させることが多く、スループットのトレードオフは控えめ。
- 組み合わせモデルは FGVC および画像検索タスクの転移学習性能も向上させ、いくつかの最先端モデルと比較して高いスループットで競争力のある精度を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。