Skip to main content
QUICK REVIEW

[論文レビュー] An evaluation of pre-trained models for feature extraction in image classification

Erick da Silva Puls, Matheus Vinícius Todescato|arXiv (Cornell University)|Oct 3, 2023
COVID-19 diagnosis using AI被引用数 8
ひとこと要約

この論文は4つの画像データセットにわたって16の事前学習モデルを特徴抽出器として体系的に評価し、特にCLIP-ViT-B、CLIP-ResNet50、VisionTransformer-H/14などのトランスフォーマーベースのモデルがCNNのみのアーキテクチャよりも一般的に優れていることを示している。

ABSTRACT

In recent years, we have witnessed a considerable increase in performance in image classification tasks. This performance improvement is mainly due to the adoption of deep learning techniques. Generally, deep learning techniques demand a large set of annotated data, making it a challenge when applying it to small datasets. In this scenario, transfer learning strategies have become a promising alternative to overcome these issues. This work aims to compare the performance of different pre-trained neural networks for feature extraction in image classification tasks. We evaluated 16 different pre-trained models in four image datasets. Our results demonstrate that the best general performance along the datasets was achieved by CLIP-ViT-B and ViT-H-14, where the CLIP-ResNet50 model had similar performance but with less variability. Therefore, our study provides evidence supporting the choice of models for feature extraction in image classification tasks.

研究の動機と目的

  • ラベル付きデータが限られている場合の画像分類の転移学習を動機づける。
  • 多様なデータセットにわたって固定特徴抽出器として複数の事前学習モデルを比較する。
  • FEタスクで最も良い全体性能を示すアーキテクチャ(CNN対トランスフォーマー基づくか)を識別する。
  • 画像分類タスクにおける特徴抽出のモデル選択について指針を提供する。

提案手法

  • 事前学習済みのバックボーンを凍結し、データセットのクラス数に合わせた新しい出力層へ置換する。
  • 一貫した前処理(リサイズ、センタークロップ、RGB変換)を適用し、5分割交差検証で学習する。
  • 学習率0.001、モーメンタム0.9、Adam最適化、Cross-Entropy損失を用い、最大100エポック、早期終了を設定して学習する。
  • .foldごとにAccuracy、Macro F1、Weighted F1を用いて評価する。
Figure 1: Illustration of the imbalance in the number of images for each class on the Geological Images dataset [ 9 ] .
Figure 1: Illustration of the imbalance in the number of images for each class on the Geological Images dataset [ 9 ] .

実験結果

リサーチクエスチョン

  • RQ1選択したデータセット全体で固定特徴抽出器として使用したとき、どの事前学習モデルが最も高い精度とF1指標を示すか。
  • RQ2CNNベースのアーキテクチャとトランスフォーマー基盤のアーキテクチャの特徴抽出性能とばらつきはどうか。
  • RQ3より多いクラス数や異種の画像サイズを含む特定のデータセットが、異なる事前学習モデルの相対的有効性に影響を与えるか。
  • RQ4データセットと指標間の性能相関において、どのようなパターンが見られるか。

主な発見

ModelDatasetAccuracyMacro PrecisionMacro RecallMacro F1Weighted PrecisionWeighted RecallWeighted F1
CLIP-ViT-BGeological Images0.930.860.830.840.920.930.92
CLIP-ResNet50Geological Images0.930.860.830.840.920.930.92
VisionTransformer-H/14Geological Images0.910.820.790.800.900.910.90
ConvNeXt LargeGeological Images0.910.840.800.820.910.910.91
CLIP-ViT-BStanford Cars0.830.830.830.830.830.830.83
CLIP-ResNet50Stanford Cars0.820.820.820.820.820.820.82
Vit-H/14Stanford Cars0.860.860.860.860.860.860.86
ConvNeXt LargeStanford Cars0.650.650.640.640.650.650.64
ViT-H/14CIFAR-100.980.980.980.980.980.980.98
CLIP-ViT-BCIFAR-100.950.950.950.950.950.950.95
ConvNeXt LargeCIFAR-100.960.960.960.960.960.960.96
ResNext101-64x4DCIFAR-100.950.950.950.950.950.950.95
ViT-H/14STL101.001.001.001.001.001.001.00
CLIP-ViT-BSTL100.990.990.990.990.990.990.99
ConvNeXt LargeSTL100.990.990.990.990.990.990.99
ResNext101-64x4DSTL100.990.990.990.990.990.990.99
  • トランスフォーマーベースのモデル(CLIP-ViT-B、CLIP-ResNet50、VisionTransformer-H/14)は、すべてのデータセットで一般にCNNベースのモデルよりも優れている。
  • Geological Imagesでは、CLIP-ViT-Bが最高の精度とMacroおよびWeighted指標でほぼトップのスコアを達成する。
  • CIFAR-10では、ViT-H/14が最高精度(約0.98)に達し、CLIP-ViT-BとConvNeXt-Lも高い性能を示す。
  • STL10では、ViT-H/14とConvNeXt-Lが最高精度(約1.00および約0.99)を達成する。
  • CNNのみのアーキテクチャは性能が劣り変動が大きく、AlexNetはすべてのデータセットで一貫して劣る。
  • 相関分析では、CNNベースのモデルはモデル間の相関が高いクラスターを形成する一方、トランスフォーマー系(CLIP系およびVision Transformer)は別の性能グループを形成する。
Figure 2: Examples of images included in the Geological Images dataset [ 9 ] .
Figure 2: Examples of images included in the Geological Images dataset [ 9 ] .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。