QUICK REVIEW

[論文レビュー] Bag of Tricks for Image Classification with Convolutional Neural Networks

Tong He, Zhang Zhi|arXiv (Cornell University)|Dec 4, 2018

Advanced Neural Network Applications参考文献 26被引用数 142

ひとこと要約

本論文は訓練手順の改良と小規模なアーキテクチャ調整のコレクションを調査・実証評価し、それらを積み重ねることでImageNetの精度と転移学習性能が向上することを示している。

ABSTRACT

Much of the recent progress made in image classification research can be credited to training procedure refinements, such as changes in data augmentations and optimization methods. In the literature, however, most refinements are either briefly mentioned as implementation details or only visible in source code. In this paper, we will examine a collection of such refinements and empirically evaluate their impact on the final model accuracy through ablation study. We will show that, by combining these refinements together, we are able to improve various CNN models significantly. For example, we raise ResNet-50's top-1 validation accuracy from 75.3% to 79.29% on ImageNet. We will also demonstrate that improvement on image classification accuracy leads to better transfer learning performance in other application domains such as object detection and semantic segmentation.

研究の動機と目的

計算コストを増加させることなくCNNの精度を向上させる訓練手順の改良と小規模なアーキテクチャ調整の集合を特定する。
複数のネットワークとデータセットに対してアブレーション研究を通じて各手法の影響を定量的に評価する。
標準パイプライン下で組み合わせた手法が最新のアーキテクチャを上回ることを示す。
精度向上が物体検出やセマンティックセグメンテーションの転移学習性能向上につながることを示す。

提案手法

ベースラインのResNet訓練手順とデータ前処理、最適化、正則化の周辺操作を定義する。
各手法のTop-1/Top-5精度への影響を分離するアブレーション研究を行う。
ImageNet上でResNet-50、Inception-V3、MobileNetを対象に手法を評価し、FLOPsと精度を報告する。
実装の影響を評価するためにResNetアーキテクチャのいくつかのモデル調整を提案する。
大規模バッチ訓練、混合精度訓練、学習率スケジュール、ラベル平滑化、ディステレーション、mixupを調査する。
物体検出（Faster-RCNN on PASCAL VOC）とセマンティックセグメンテーション（ADE20K）で転移学習性能を検証する。

実験結果

リサーチクエスチョン

RQ1ImageNetにおけるCNNの精度に対する個々の訓練手法の影響は何か。
RQ2複数の手法を積み重ねた場合、アーキテクチャを横断して標準訓練パイプラインとどう比較されるか。
RQ3手法による精度向上は物体検出やセマンティックセグメンテーションなど他のタスクへ転移するか。
RQ4精度と計算コストの最良のトレードオフを生む手法の組み合わせはどれか。

主な発見

Model	FLOPs	Top-1	Top-5
ResNet-50	3.9 G	75.3	92.2
ResNeXt-50	4.2 G	77.8	-
SE-ResNet-50	3.9 G	76.71	93.38
SE-ResNeXt-50	4.3 G	78.90	94.51
DenseNet-201	4.3 G	77.42	93.66
ResNet-50 + tricks (ours)	4.3 G	79.29	94.63

すべての手法を適用したResNet-50はImageNetで79.29%のTop-1を達成し、標準パイプライン下でいくつかの新しいアーキテクチャを上回る。
多くの場合、手法を組み合わせる方が個別に適用するより大きな改善をもたらす。
手法はInception-V3とMobileNetにも一般化し、物体検出とセマンティックセグメンテーションの転移学習性能を改善する。
大規模バッチと混合精度訓練は訓練時間を大幅に短縮し、手法と組み合わせると精度を維持または向上させることがある。
知識蒸留は一部のアーキテクチャ（特にResNet系）には有益だが、すべてのモデルに普遍的ではない。
ラベル平滑化、mixup、コサイン学習率減衰はImageNetの検証精度に顕著な改善をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。