Skip to main content
QUICK REVIEW

[論文レビュー] Very Deep Convolutional Networks for Large-Scale Image Recognition

Karen Simonyan, Andrew Zisserman|arXiv (Cornell University)|Sep 4, 2014
Advanced Vision and Imaging参考文献 30被引用数 75,407
ひとこと要約

本論文は、3x3フィルターで構築された非常に深いConvNets(11–19の重み層)が大規模画像認識に与える影響を調査し、最先端の結果を達成し、トップモデルを公開している。

ABSTRACT

In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main contribution is a thorough evaluation of networks of increasing depth using an architecture with very small (3x3) convolution filters, which shows that a significant improvement on the prior-art configurations can be achieved by pushing the depth to 16-19 weight layers. These findings were the basis of our ImageNet Challenge 2014 submission, where our team secured the first and the second places in the localisation and classification tracks respectively. We also show that our representations generalise well to other datasets, where they achieve state-of-the-art results. We have made our two best-performing ConvNet models publicly available to facilitate further research on the use of deep visual representations in computer vision.

研究の動機と目的

  • 大規模画像認識における深さが精度に与える影響を評価する。
  • 小さな3x3畳み込みフィルターが非常に深いネットワークを構築できることを実証する。
  • 訓練/評価の戦略(スケール変動、多スケール訓練、多クロップ評価)と他データセットへの一般化を評価する。
  • 最も高い性能を示すモデルを公開し、今後の研究を促進する。

提案手法

  • 入力サイズを固定して224x224とし、3x3畳み込みフィルターと1ピクセルのパディングで解像度を維持する。
  • 深さを11から19の重み層へ増やすA–Eの複数の畳み込み層を積み、各最大プーリング層の後に細い幅を拡張する。
  • メモリと計算量を削減しつつ性能を維持するため、深いネットワークでのReLU活性化を適用しLRNを避ける。
  • SGD(バッチ256、モーメンタム0.9)、L2ウェイト減衰、最初の2つの全結合層のドロップアウトで訓練し、スケールベースのデータ拡張と多スケール訓練を採用する。
  • テスト時には全結合層を畳み込み層に変換して全画像に対して密な評価を可能とし、クラススコアのsum-poolingを行う。単一スケール、多スケール、そしてマルチクロップ戦略で評価し、複数モデルをアンサンブルして精度を向上させる。

実験結果

リサーチクエスチョン

  • RQ1深さを11から19の重み層に増やすことが、ILSVRC-2012/2014でのtop-1およびtop-5精度にどのような影響を与えるか?
  • RQ2深さが増すと3x3フィルタのスタックは大きなフィルタより有利か?
  • RQ3多スケールと多クロップ評価を訓練と評価に用いることが最終的な精度にどのような影響を与えるか?
  • RQ4学習した非常に深い表現はImageNet以外のデータセットへ一般化できるか?
  • RQ5このアーキテクチャにおける単一モデルとアンサンブルの性能はどう異なるか?

主な発見

  • より深いネットワーク(最大19の重み層)は、浅いものと比べて性能を向上させる。
  • ReLUを用いた3x3フィルタのスタックは同等またはより大きなフィルタのアーキテクチャより優れており、1x1畳み込みを追加することは非線形性を与えるが、空間情報を喪失せずに深い3x3スタックより劣る。
  • 訓練時および評価時のスケールジッタリング(マルチスケール入力)は、固定スケール訓練より大幅な精度向上をもたらす。
  • Dense評価とマルチクロップ評価は補完的であり、モデルアンサンブルはさらに誤差を減らし、最良の単一モデルで7.0%のtop-5テストエラー、アンサンブルとマルチクロップで6.8%を達成する。
  • このアプローチはILSVRC-2014分類で2位(7.3%のtop-5テストエラー)を獲得し、GoogLeNetの性能に近い、より単純で深い設計を実現して他の複数の既存アーキテクチャを上回った。
  • 論文は今後の研究を促進するために、最も性能の高い2モデルを公開した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。