Skip to main content
QUICK REVIEW

[論文レビュー] Backbones-Review: Feature Extraction Networks for Deep Learning and Deep Reinforcement Learning Approaches

Omar Elharrouss, Younes Akbari|arXiv (Cornell University)|Jun 16, 2022
Anomaly Detection Techniques and Applications参考文献 144被引用数 49
ひとこと要約

バックボーンネットワーク(例: AlexNet、VGG、ResNet、DenseNet、EfficientNet、HRNet など)を用いた特徴抽出の DL および DRL の包括的な調査であり、アーキテクチャ、タスク、比較的洞察を詳述する。

ABSTRACT

To understand the real world using various types of data, Artificial Intelligence (AI) is the most used technique nowadays. While finding the pattern within the analyzed data represents the main task. This is performed by extracting representative features step, which is proceeded using the statistical algorithms or using some specific filters. However, the selection of useful features from large-scale data represented a crucial challenge. Now, with the development of convolution neural networks (CNNs), the feature extraction operation has become more automatic and easier. CNNs allow to work on large-scale size of data, as well as cover different scenarios for a specific task. For computer vision tasks, convolutional networks are used to extract features also for the other parts of a deep learning model. The selection of a suitable network for feature extraction or the other parts of a DL model is not random work. So, the implementation of such a model can be related to the target task as well as the computational complexity of it. Many networks have been proposed and become the famous networks used for any DL models in any AI task. These networks are exploited for feature extraction or at the beginning of any DL model which is named backbones. A backbone is a known network trained in many other tasks before and demonstrates its effectiveness. In this paper, an overview of the existing backbones, e.g. VGGs, ResNets, DenseNet, etc, is given with a detailed description. Also, a couple of computer vision tasks are discussed by providing a review of each task regarding the backbones used. In addition, a comparison in terms of performance is also provided, based on the backbone used for each task.

研究の動機と目的

  • DL と DRL における特徴抽出に用いられるバックボーンファミリを調査・カテゴライズする。
  • バックボーンが異なるコンピュータビジョンタスク(分類、検出、セグメンテーションなど)にどのように選択されるかを議論する。
  • アーキテクチャ、パラメータ、計算コストに関する比較的議論を提供する。
  • バックボーン設計と活用の課題と今後の方向性を明確にする。

提案手法

  • 代表的なバックボーンアーキテクチャ(例: AlexNet、VGGs、ResNet、Inception、DenseNet、MobileNet、EfficientNet、HRNet など)を説明・分類する。
  • パラメータ数、トレーニングタスク、主要なアーキテクチャ的特徴といったバックボーンの特徴を要約する。
  • コンピュータビジョンタスクと DRL コンテキストにおけるバックボーンの展開をレビューする。
  • タスクとバックボーン間の qualitita ve 比較とトレンドを提供する。

実験結果

リサーチクエスチョン

  • RQ1DL および DRL タスク全体で特徴抽出に最も一般的に用いられるバックボーンアーキテクチャは何か。
  • RQ2バックボーンの選択は画像分類、物体検出、 crowd counting、映像要約などのパフォーマンスと計算コストにどのように影響するか。
  • RQ3バックボーン設計・活用の観察された傾向とギャップは何であり、今後の方向性は何が示唆されているか。
  • RQ4DRL コンテキストにおけるバックボーンは従来の DL タスクと比べてどのように性能するか。

主な発見

BackboneYear# of parameterstrained task
AlexNet201260MImg-class
VGG-162014138MImg-class
VGG-192014144MImg-class
Inception-V1 (GoogleNet)20145 MImg-class
ResNet-50201526 MImg-class
ResNet-101201544.6 MImg-class
ResNet-1522015230MImg-class
Inception-V2201521.8MImg-class
Inception-V3201521.8MImg-class
Inception-ResNet-V2201555 MImg-class, obj-det
Darknet-19201520.8 MObj-det
Xception201722.9 MImg-class
  • 論文はAlexNet、VGG-16/19、GoogleNet/Inception 系、ResNet 系、DenseNet、Darknet、ShuffleNet、DetNet、SqueezeNet、MobileNet、WideResNet、EfficientNet、SWideRNet、Xception、HRNet など、広範なバックボーンを列挙・記述している。
  • バックボーンは特定の CV タスク(画像分類、物体検出、crowd counting、ビデオ要約など)に紐づけられ、それぞれの長所と使用文脈に注意が払われている。
  • 性能と複雑さの考慮事項(パラメータ数、FLOPs、低電力デバイスでの適合性など)が議論され、精度と効率のトレードオフが強調されている。
  • 設計動向として、深さ対幅、残差結合、マルチスケール・高解像度維持アーキテクチャ、モバイル・エッジ用途向けの効率的畳み込み戦略などの進化が指摘されている。
  • 表は主要なネットワークのバックボーン特性(年、パラメータ、訓練タスク)をクイックリファレンスとして要約している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。