QUICK REVIEW

[論文レビュー] Going Deeper with Convolutions

Christian Szegedy, Wei Liu|arXiv (Cornell University)|Sep 17, 2014

Advanced Neural Network Applications参考文献 12被引用数 1,382

ひとこと要約

この論文は、ImageNetの分類および検出において、従来のモデルよりも顕著に少ないパラメータで最先端の性能を達成する、Inceptionと呼ばれる深層畳み込みニューラルネットワークアーキテクチャであるGoogLeNetを紹介する。多スケール畳み込みフィルタと1×1畳み込みを用いた革新的なInceptionモジュールにより、計算コストを固定したまま深さと幅を効率的に増加させることができ、6つのモデルのアンサンブルを用いてILSVRC 2014検出チャレンジで43.9%のmAPを達成した。

ABSTRACT

We propose a deep convolutional neural network architecture codenamed "Inception", which was responsible for setting the new state of the art for classification and detection in the ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC 2014). The main hallmark of this architecture is the improved utilization of the computing resources inside the network. This was achieved by a carefully crafted design that allows for increasing the depth and width of the network while keeping the computational budget constant. To optimize quality, the architectural decisions were based on the Hebbian principle and the intuition of multi-scale processing. One particular incarnation used in our submission for ILSVRC 2014 is called GoogLeNet, a 22 layers deep network, the quality of which is assessed in the context of classification and detection.

研究の動機と目的

計算コストを維持したまま表現力の高い深層畳み込みニューラルネットワークを設計すること。
計算コストを増加させずに画像分類およびオブジェクト検出の性能を向上させること。
パラメータ数やFLOPsの比例的増加なしに、より深いおよび広いネットワークを可能にするアーキテクチャ的革新を探索すること。
推論効率を最適化することで、モバイルおよび組み込みデバイスへの実世界での展開に適したモデルを開発すること。
Inceptionモジュールが高精度で効率的な深層ネットワークを実現する有効性を検証すること。

提案手法

異なるサイズ（1×1、3×3、5×5）の畳み込みフィルタとマックスプーリングを並列に適用することで、多スケール特徴を捉えるInceptionモジュールを導入する。
次元削減のためのボトルネック層として1×1畳み込みを用い、次元の爆発を防ぎ、計算のボトルネックを緩和する。これにより、より深いおよび広いネットワークの構築が可能になる。
過学習とパラメータ数の削減のため、全結合層の代わりにグローバル平均プーリングを採用する。
深層ネットワークにおける勾配の流れと学習安定性を向上させるために、中間層に補助分類器を適用する。
固定された計算コスト予算（15億FLOPs）を満たすように最適化された22層の深層ネットワークとしてGoogLeNetアーキテクチャを設計する。
R-CNNを模倣した二段階の検出パイプラインを採用し、マルチボックス提案のための選択的探索と、6つのInceptionベースの分類器によるアンサンブルを用いて領域分類を実施する。

実験結果

リサーチクエスチョン

RQ1アーキテクチャの効率性を向上させることで、計算コストを増加させずにより高い精度を達成できるか？
RQ2パラメータの増加を最小限に抑えて、多スケール特徴抽出を深層畳み込みネットワークに効果的に統合できるか？
RQ31×1畳み込みが、パラメータ数の増加なしに、より深いおよび広いネットワークを可能にする次元削減手段としてどの程度有効に機能するか？
RQ4非常に構造的でスパースなアーキテクチャを、密度的かつ学習可能なコンponentsで近似することで、高い性能を達成できるか？
RQ5同じ計算制約下で、Inceptionアーキテクチャは標準的な深層ネットワークよりも分類およびオブジェクト検出の両面で優れた性能を示せるか？

主な発見

6つのモデルのアンサンブルを用いて、ILSVRC 2014検出チャレンジで43.9%のmAPを達成し、他のすべての参加者を上回った。
2012年の優勝アーキテクチャと比較して、12倍も少ないパラメータ数で、はるかに高い精度を達成した。
1×1畳み込みの導入により、計算負荷が軽減され、FLOPsを増加させずに、より深いおよび広いネットワークの構築が可能になった。
Inceptionモジュールにより、異なるカーネルサイズの並列畳み込みによって、多スケールパターンの特徴表現が向上した。
ボクセル境界回帰や文脈モデリングを用いずとも、単一モデルでの検出で38.02%のmAPを達成し、優れた一般化性能を示した。
パラメータのスケーリングではなく、アーキテクチャ設計の最適化によって、効率的で高性能なモデルを構築できることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。