[論文レビュー] Performance Analysis of Image Classification on Bangladeshi Datasets
この論文は、Bangladeshiの画像データセット5件に対して、スクラッチから訓練したカスタムCNNと事前訓練済みアーキテクチャ(ResNet-50およびConvNeXt-Tiny)を転移学習で比較し、事前訓練モデルが一般的にカスタムCNNよりも精度と収束性で優れていることを示し、ConvNeXt-Tinyが全体的な性能で最良を提供する。
Convolutional Neural Networks (CNNs) have demonstrated remarkable success in image classification tasks; however, the choice between designing a custom CNN from scratch and employing established pre-trained architectures remains an important practical consideration. In this work, we present a comparative analysis of a custom-designed CNN and several widely used deep learning architectures, including VGG-16, ResNet-50, and MobileNet, for an image classification task. The custom CNN is developed and trained from scratch, while the popular architectures are employed using transfer learning under identical experimental settings. All models are evaluated using standard performance metrics such as accuracy, precision, recall, and F1-score. Experimental results show that pre-trained CNN architectures consistently outperform the custom CNN in terms of classification accuracy and convergence speed, particularly when training data is limited. However, the custom CNN demonstrates competitive performance with significantly fewer parameters and reduced computational complexity. This study highlights the trade-offs between model complexity, performance, and computational efficiency, and provides practical insights into selecting appropriate CNN architectures for image classification problems.
研究の動機と目的
- Scratchから訓練したカスタムCNNがBangladeshi画像データセットで事前訓練済みアーキテクチャに匹敵するかを評価する。
- 転移学習とカスタムモデルの収束速度、精度、計算効率を評価する。
- データとリソースが限られる状況でのモデル選択に関する実践的な推奨を特定する。
提案手法
- 512x512画像でカスタムCNNを設計・訓練し、凍結特徴抽出バックボーンとファインチューニングを比較する。
- ResNet-50およびConvNeXt-Tinyを事前訓練済みバックボーンとして、タスク特有の分類ヘッドを用意する。
- 特徴抽出時にはバックボーン層を凍結し、上位層を選択的に開放してファインチューニングを行う。
- 5つのBangladeshiデータセット全体で精度、適合率、再現率、F1スコアを評価する。
- データ拡張と標準正規化を適用し、検証損失と早期停止で訓練をモニタリングする。
実験結果
リサーチクエスチョン
- RQ1転移学習を用いた事前訓練済みCNNは、同一条件で訓練したカスタムCNNよりBangladeshiデータセットで優れているか。
- RQ2どのアーキテクチャ(ResNet-50対ConvNeXt-Tiny)がバイナリおよびマルチクラス課題で最も高い精度と効率を提供するか。
- RQ3小〜中規模のBangladeshのデータセットに対して、モデルの複雑さ、訓練時間、性能のトレードオフはどうか。
主な発見
| Dataset | Model | Accuracy | Precision | Recall | F1-score | Time | Parameters |
|---|---|---|---|---|---|---|---|
| Auto-Rickshaw Image BD | CustomCNN | 0.9204 | 0.9276 | 0.9204 | 0.912 | 10.02 | 134,608,642 |
| Auto-Rickshaw Image BD | ResNet-50 | 0.791 | 0.754 | 0.791 | 0.7195 | 9.83 | 4,098 |
| Auto-Rickshaw Image BD | ConvNeXT_Tiny | 0.96 | 0.95 | 0.86 | 0.9 | 284.2 | 14,290,946 |
| Footpath Vision BD | CustomCNN | 0.9358 | 0.9369 | 0.9358 | 0.936 | 20.83 | 134,608,642 |
| Footpath Vision BD | ResNet-50 | 0.92 | 0.91 | 0.94 | 0.93 | 83 | 16,014,850 |
| Footpath Vision BD | ConvNeXT_Tiny | 0.92 | 0.92 | 0.92 | 0.92 | 101.53 | 14,684,162 |
| Road Damage BD | CustomCNN | 0.9155 | 0.9292 | 0.9155 | 0.9158 | 42 | 13,250,241 |
| Road Damage BD | ResNet-50 | 0.9859 | 0.9864 | 0.9859 | 0.9859 | 20.07 | 17,221,121 |
| Road Damage BD | ConvNeXT_Tiny | 1 | 1 | 1 | 1 | 231 | 20,367,361 |
| Mango Image BD | CustomCNN | 0.8481 | 0.8407 | 0.8481 | 0.8329 | 20.62 | 67,506,447 |
| Mango Image BD | ResNet-50 | 0.9755 | 0.9765 | 0.9755 | 0.975 | 60.51 | 30,735 |
| Mango Image BD | ConvNeXT_Tiny | 0.9883 | 0.9887 | 0.9883 | 0.9883 | 126.34 | 13,071 |
| Paddy Variety BD | CustomCNN | 0.8971 | 0.8996 | 0.8971 | 0.8972 | 49.055 | 134,625,571 |
| Paddy Variety BD | ResNet-50 | 0.7257 | 0.7497 | 0.7257 | 0.7215 | 77.11 | 71,715 |
| Paddy Variety BD | ConvNeXT_Tiny | 0.9195 | 0.9228 | 0.9195 | 0.9196 | 239.39 | 28,451 |
- Pre-trained ConvNeXt-Tinyは、特にRoadDamageBD, MangoImageBD, PaddyVarietyBDでデータセット全体を通じて最高の精度とF1スコアを一般的に達成する。
- ResNet-50は競争力のある性能を提供するが、通常は計算コストが高く、訓練曲線にいくつかの揺らぎが見られる。
- カスタムCNNは収束が遅く、しばしば精度が低くなる傾向があるが、いくつかの状況ではリソースを大幅に節約する。
- 転移学習は、スクラッチからカスタムCNNを訓練するよりも収束速度と安定性を一貫して向上させる。
- Auto-RickshawImageBDでは、ConvNeXt-Tinyが0.96の精度と0.90のF1スコアを達成し、カスタムCNNとResNet-50を上回る。
- FootpathVisionBDでは、ConvNeXt-TinyとResNet-50が堅牢な性能を示し、ConvNeXt-Tinyが強い収束と高い安定性を示す。
- RoadDamageBDでは、ConvNeXt-Tinyが表において0.0の精度と1.0のF1スコアを達成し完璚スコアを示す(0.9859の精度でResNet-50も非常に良好)。
- MangoImageBDおよび PaddyVarietyBDでは、ConvNeXt-Tinyが最高の精度(0.9883と0.9195)と高い一貫性を提供。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。