Skip to main content
QUICK REVIEW

[論文レビュー] Convolutional Neural Networks at Constrained Time Cost

Kaiming He, Jian Sun|arXiv (Cornell University)|Dec 4, 2014
Advanced Neural Network Applications参考文献 20被引用数 26
ひとこと要約

この論文では、推論および学習時間に制限がある状況を想定し、計算コストを維持したまま深さ、幅、フィルターサイズのバランスをとるためにレイヤー置換を用いた畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。計算コストを維持しつつ、深さ、幅、フィルター サイズのバランスをとることで、推論時間はAlexNetより20%速く、複雑さは40%少なく、ImageNetではトップ5誤差11.8%を達成した。これは、時間制約下で精度に最も影響を与える要因が深さであることを示している。

ABSTRACT

Though recent advanced convolutional neural networks (CNNs) have been improving the image recognition accuracy, the models are getting more complex and time-consuming. For real-world applications in industrial and commercial scenarios, engineers and developers are often faced with the requirement of constrained time budget. In this paper, we investigate the accuracy of CNNs under constrained time cost. Under this constraint, the designs of the network architectures should exhibit as trade-offs among the factors like depth, numbers of filters, filter sizes, etc. With a series of controlled comparisons, we progressively modify a baseline model while preserving its time complexity. This is also helpful for understanding the importance of the factors in network designs. We present an architecture that achieves very competitive accuracy in the ImageNet dataset (11.8% top-5 error, 10-view test), yet is 20% faster than "AlexNet" (16.0% top-5 error, 10-view test).

研究の動機と目的

  • 実世界の展開を想定し、時間コストが制限される状況下で、ネットワークの深さ、幅、フィルター サイズ、ストライドのトレードオフを調査すること。
  • 厳密な時間および計算リソース予算内に収まるように、高い精度を維持するCNNアーキテクチャを開発すること。
  • 時間複雑度が固定された条件下で、アーキテクチャ要因(深さ、幅、フィルター サイズ、ストライド)が精度に与える相対的影響を理解すること。
  • 産業的・商業的応用、特にモバイルおよびクラウド環境に適した実用的で高速かつ高精度なモデルを提供すること。

提案手法

  • ベースラインCNNの時間複雑度を維持したまま、アーキテクチャ要因の影響を制御的に比較できるように、レイヤー置換戦略を用いる。
  • 時間コストが等しい代替レイヤーに置き換えることで、深さ、幅、フィルター サイズ、ストライドを体系的に変化させ、それぞれの影響を分離する。
  • 固定された時間コストを前提とした制御された実験設計を採用し、ImageNetのトップ1およびトップ5誤差率に対する各アーキテクチャ的変更の影響を評価する。
  • 1台のNvidia Titan GPU上でモデルを再実装し、ミニバッチあたりの実際の学習および推論時間を測定する。
  • 10ビューのテスト増強を用い、実世界の展開要件を反映させるために、学習時間および推論時間の両方を評価する。
  • 同じ評価プロトコル下で、既存の高速モデル(例:AlexNet、ZF-fast、SPPnet)および最先端モデル(例:VGG-16、GoogLeNet)と比較する。

実験結果

リサーチクエスチョン

  • RQ1時間コストが制限され、他の要因が調整された状況で、ネットワークの深さを増加させると精度にどのように影響するか?
  • RQ2時間複雑度が固定された条件下で、深さ、幅、フィルター サイズ、ストライドの相対的影響は何か?
  • RQ3同じ時間予算内に収まるように、AlexNetなどの既存の高速モデルよりも高速かつ高精度なモデルを設計できるか?
  • RQ4深さを過剰に増加させると、幅やフィルター サイズを減らさなくても、精度の停滞または低下が生じる点はどこか?

主な発見

  • 提案モデルは、10ビューのテスト増強を用いた場合、ImageNetでトップ5誤差11.8%を達成し、AlexNetの16.0%を上回った。
  • 実際のGPU推論時間では、AlexNetより20%速く、1台のTitan GPUでミニバッチあたり0.41秒を要した。
  • AlexNetより40%少ない複雑さであるにもかかわらず、トップ5誤差は4.2%低く、トップ1誤差は5.8%低かった。
  • 深さを増加させることで、精度が顕著に向上するが、これは幅やフィルター サイズを減らして時間コストを維持した場合でも同様に確認された。深さの優先度が極めて高いことが示された。
  • 幅やフィルター サイズを減らさなくても、深さを極端に増加させると、精度の停滞または低下が生じる場合があり、パフォーマンスの上限があることが示された。
  • 1台のGPUで3〜4日で学習が完了し、最近の高速モデル(例:CNN-F、ZF-fast、SPPnet)よりも顕著に高速かつ高精度であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。