QUICK REVIEW

[論文レビュー] Rethinking the Inception Architecture for Computer Vision

Christian Szegedy, Vincent Vanhoucke|arXiv (Cornell University)|Dec 2, 2015

Advanced Neural Network Applications被引用数 564

ひとこと要約

この論文は、因子化畳み込み、積極的な次元削減、バッチ正規化、ラベルスムージングを用いて精度を向上させる、洗練された畳み込みニューラルネットワークアーキテクチャであるInception-v3を紹介する。単に50億回の乗加算と2500万未満のパラメータを用いて、ImageNet ILSVRC 2012で21.2%のtop-1誤差と5.6%のtop-5誤差を達成し、計算効率において従来のモデルを顕著に上回った。

ABSTRACT

Convolutional networks are at the core of most state-of-the-art computer vision solutions for a wide variety of tasks. Since 2014 very deep convolutional networks started to become mainstream, yielding substantial gains in various benchmarks. Although increased model size and computational cost tend to translate to immediate quality gains for most tasks (as long as enough labeled data is provided for training), computational efficiency and low parameter count are still enabling factors for various use cases such as mobile vision and big-data scenarios. Here we explore ways to scale up networks in ways that aim at utilizing the added computation as efficiently as possible by suitably factorized convolutions and aggressive regularization. We benchmark our methods on the ILSVRC 2012 classification challenge validation set demonstrate substantial gains over the state of the art: 21.2% top-1 and 5.6% top-5 error for single frame evaluation using a network with a computational cost of 5 billion multiply-adds per inference and with using less than 25 million parameters. With an ensemble of 4 models and multi-crop evaluation, we report 3.5% top-5 error on the validation set (3.6% error on the test set) and 17.3% top-1 error on the validation set.

研究の動機と目的

コンピュータビジョンタスク向けに、より計算効率的で高精度な畳み込みニューラルネットワークアーキテクチャを設計すること。
ナーブなネットワークスケーリングによるパラメータとFLOPsの四乗増加という非効率性を是正すること。
計算コストとパラメータ数を抑えたまま、ImageNet分類の性能を向上させること。
GoogLeNetを越えたInceptionスタイルネットワークの明確で体系的な設計フレームワークを提供すること。
積極的な正則化とアーキテクチャ的革新が、限定的な計算リソースでも高精度を達成できることを示すこと。

提案手法

大規模な畳み込みフィルタ（例：7×7）を小さな連続する3×3畳み込みに因子化することで、FLOPsとパラメータ数を削減する。
すべての畳み込み層、特に補助分類器に対してもバッチ正規化を適用し、学習の安定化と一般化性能の向上を図る。
訓練時にラベルスムージングを適用することで、過信度を低下させ、ロバスト性と一般化性能を向上させる。
大規模なフィルタの前に1×1畳み込みを用いて、積極的な次元削減を実装し、計算コストを制限する。
初期学習段階での勾配を強化するために、バッチ正規化を施した補助分類器を導入する。
マルチクロップ評価とモデルアンサンブルを用いて、ILSVRC 2012バリデーションセットでの性能をさらに向上させる。

実験結果

リサーチクエスチョン

RQ1因子化畳み込みと次元削減は、精度を損なわせることなく、FLOPsとパラメータ数を顕著に削減できるか？
RQ2バッチ正規化とラベルスムージングは、深層Inceptionネットワークにおける一般化性能と学習安定性にどのように影響するか？
RQ3アーキテクチャ的革新は、計算コストを抑えながら、top-1とtop-5誤差をどの程度向上させられるか？
RQ4FLOPsやパラメータ数が四乗的に増加することなく、積極的なアーキテクチャスケーリングを実現できるか？
RQ5マルチクロップ評価とモデルアンサンブルは、ILSVRC 2012ベンチマークでの性能をどの程度向上させるか？

主な発見

Inception-v3は、単一フレーム評価でILSVRC 2012バリデーションセットにおいて21.2%のtop-1誤差と5.6%のtop-5誤差を達成し、新たなSOTAを樹立した。
4モデルアンサンブルとマルチクロップ評価を組み合わせた場合、top-5誤差は3.5%にまで低下し、最高の公表済みアンサンブル結果比で25%の相対的削減を達成した。
推論あたり50億回の乗加算と2500万未満のパラメータで、He et al. [6] のようなより深い、密度の高いネットワークを顕著に上回った。
因子化された7×7畳み込みの使用により、FLOPsを削減しながらも精度を維持でき、アーキテクチャの分解の有効性を示した。
ラベルスムージングとバッチ正規化を施した補助分類器の導入により、一般化性能が向上し、過学習が軽減され、性能が向上した。
受容 field がたとえ79×79の小さなサイズであっても、高精度を達成でき、小さな物体の検出に有利であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。