Skip to main content
QUICK REVIEW

[論文レビュー] Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

Ionuţ Cosmin Duţă, Li Liu|arXiv (Cornell University)|Jun 20, 2020
Advanced Neural Network Applications参考文献 51被引用数 138
ひとこと要約

PyConvは、パラメータ数を増やすことなく、異なる空間サイズと深さで入力を処理する多重スケールのカーネルピラミッドを作成し、分類、セマンティックセグメンテーションなどの関連タスクにおける性能を改善します。

ABSTRACT

This work introduces pyramidal convolution (PyConv), which is capable of processing the input at multiple filter scales. PyConv contains a pyramid of kernels, where each level involves different types of filters with varying size and depth, which are able to capture different levels of details in the scene. On top of these improved recognition capabilities, PyConv is also efficient and, with our formulation, it does not increase the computational cost and parameters compared to standard convolution. Moreover, it is very flexible and extensible, providing a large space of potential network architectures for different applications. PyConv has the potential to impact nearly every computer vision task and, in this work, we present different architectures based on PyConv for four main tasks on visual recognition: image classification, video action classification/recognition, object detection and semantic image segmentation/parsing. Our approach shows significant improvements over all these core tasks in comparison with the baselines. For instance, on image recognition, our 50-layers network outperforms in terms of recognition performance on ImageNet dataset its counterpart baseline ResNet with 152 layers, while having 2.39 times less parameters, 2.52 times lower computational complexity and more than 3 times less layers. On image segmentation, our novel framework sets a new state-of-the-art on the challenging ADE20K benchmark for scene parsing. Code is available at: https://github.com/iduta/pyconv

研究の動機と目的

  • 標準のCNNにおける固定サイズカーネルと制限された受容野の限界に対処する。
  • パラメータ効率を維持した多尺度・多深度の畳み込み演算子(PyConv)を開発する。
  • PyConvの有効性を、画像分類、動画アクション認識、物体検出、およびセマンティックセグメンテーションの分野で示す。
  • 主要な視覚認識ベンチマークでベースラインを上回るアーキテクチャ(PyConvResNet、PyConvHGResNet、PyConvSegNet)を提供する。

提案手法

  • レベルごとに空間サイズを増やし、深さを減じていくカーネルのピラミッドとしてPyConvを定義する。
  • 標準畳み込みと同等のパラメータ量を維持しつつ、レベルごとのカーネル深さを制御するためにグループ化畳み込みを用いてPyConvを実装する。
  • PyConvを残差ボトルネックブロックに組み込み、PyConvResNetおよびPyConvHGResNetアーキテクチャを形成する。
  • セマンティックセグメンテーションのためにPyConvPH(LocalPyConv、GlobalPyConv、Mergeブロック)を提案し、局所的およびグローバルな多尺度文脈を捉える。
  • ImageNetとADE20KにおけるResNetベースラインとの性能を比較し、パラメータ/ FLOP予算を分析する。

実験結果

リサーチクエスチョン

  • RQ1標準の畳み込みと同程度のパラメータ数および計算コストを保ちながら、PyConvは認識性能を向上させることができるか?
  • RQ2CNNバックボーンに統合した場合、多尺度・多深度のカーネル処理は、分類、セグメンテーション、検出、動画などの多様な視覚タスクに有益か?
  • RQ3最適な精度と効率のために、ネットワーク各段階でカーネルサイズ、深さ、グルーピングをどのように構成すべきか?
  • RQ4マルチスケールセグメーションヘッド(PyConvPH)はADE20Kで既存のセグメンテーションヘッドを上回ることができるか?

主な発見

NetworkTop-1Top-5ParamsGFLOPs
ResNet (baseline) 5023.887.0625.564.14
PyConvResNet 5022.126.2024.853.88
PyConvHGResNet 5021.525.9425.234.61
PyConvResNet 10120.995.5342.315.27
  • PyConvベースのネットワークはImageNetでResNetベースラインを上回り、より少ないパラメータとFLOPsを使用します(例:PyConvResNet-50:Top-1 22.12%、24.85Mパラメータ、3.88 GFLOPs)。
  • PyConvHGResNet-50は単一モデルの精度をさらに高め、Top-1で21.52%を達成。
  • PyConvは多尺度カーネルによる効果的なダウンサンプリングを可能にし、追加コストなしに平行移動不変性を改善する。
  • PyConvPHを組み込んだPyConvSegNetフレームワークはADE20Kのシーン解析で競争力のある/強力な結果を達成。
  • 深さをまたいで、PyConv系はトレーニング中に収束が速く、ResNet系よりバリデーション精度が高い。
  • 結果は、段階を跨いでカーネルサイズを大きくする(例:9x9、7x7、5x5、3x3)に適切なグルーピングを組み合わせると、パラメータを増やさずに一貫した性能向上を生むことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。