QUICK REVIEW

[論文レビュー] Image Classification with Classic and Deep Learning Techniques

Òscar Lorente, Ian Riera|arXiv (Cornell University)|May 11, 2021

Advanced Image and Video Retrieval Techniques参考文献 11被引用数 23

ひとこと要約

この論文は、2,688枚の画像からなる8クラスのデータセットにおいて、古典的でディープラーニング手法を画像分類タスクで評価しており、SVMとのBag of Visual Words (BoVW)、マルチレイヤーパーセプトロン (MLP)、微調整されたInceptionV3、およびカスタムCNN (TinyNet)を比較している。pre-trainedモデルのInceptionV3は96％の正確性を達成しているが、パrameterがたった4,000個の軽量でカスタム設計されたCNNは82.5％の正確性を達成しており、データが限られる状況では、大規模なアーキテクチャに比べて小規模で効率的なモデルが優れていることを示している。

ABSTRACT

To classify images based on their content is one of the most studied topics in the field of computer vision. Nowadays, this problem can be addressed using modern techniques such as Convolutional Neural Networks (CNN), but over the years different classical methods have been developed. In this report, we implement an image classifier using both classic computer vision and deep learning techniques. Specifically, we study the performance of a Bag of Visual Words classifier using Support Vector Machines, a Multilayer Perceptron, an existing architecture named InceptionV3 and our own CNN, TinyNet, designed from scratch. We evaluate each of the cases in terms of accuracy and loss, and we obtain results that vary between 0.6 and 0.96 depending on the model and configuration used.

研究の動機と目的

画像分類におけるBag of Visual Words (BoVW) やSVMといった古典的コンピュータビジョン手法の性能を評価すること。
マルチレイヤーパーセプトロン (MLP)、微調整されたInceptionV3、およびカスタムCNN (TinyNet) を含むディープラーニングモデルが、小規模でバランスの取れた画像データセット上でどれほど効果的であるかを評価すること。
モデルアーキテクチャ、ディープワイズ分離畳み込み、最適化手法の影響が正確性とパrameter効率に与える影響を調査すること。
限られた学習データで、小規模なCNNをスクラッチから訓練することは、大規模なpre-trainedモデルを微調整するのと同等の性能を達成できるかを特定すること。
データが少ない状況におけるモデルの複雑さ、パrameter数、性能のトレードオフを分析すること。

提案手法

局所的特徴量（SIFT、SURF、DAISY）を用いたBoVWシステムを実装し、密なキーポoinト抽出を適用し、視覚的単語ヒストグラム上でSVM分類器を学習した。
画像分類のベースラインとしてのディープラーニングモデルとして、マルチレイヤーパーセプトロン (MLP) を設計・訓練した。
データセット上で事前学習済みのInceptionV3アーキテクチャを微調整し、固定済みおよび非固定の特徴抽出モードを含めた。
ReLU活性化関数、バッチ正則化、マックスプーリングを用いた、4〜5層の畳み込み層から構成される軽量CNN（TinyNet）をスクラッチから設計した。
モデルサイズとパラメータを削減しながら性能を維持するために、ディープワイズ分離畳み込みを適用した。
トレーニングの高速化と収束の改善を目的として、ワンサイクルポリシーと学習率ファイナーを含む高度な最適化手法を採用した。

実験結果

リサーチクエスチョン

RQ1小規模な画像分類データセットにおいて、BoVWとSVMといった古典的コンピュータビジョン手法は、現代のディープラーニングモデルと比べてどれほど性能を発揮するか？
RQ2BoVWベースの分類精度に、密なキーポイント検出と疎なキーポイント検出のどちらが影響を与えるか？
RQ3限られた学習データで、スクラッチから訓練した小規模でカスタム設計されたCNNは、InceptionV3のような微調整済みpre-trainedモデルと同等の精度を達成できるか？
RQ4ディープワイズ分離畳み込みを用いることで、モデルサイズとパラメータ数をどれほど削減できるか、かつ分類精度に悪影響を与えないか？
RQ5ワンサイクルポリシーのような高度な最適化手法は、データが少ない状況下でトレーニング速度とモデル収束にどのように影響を与えるか？

主な発見

密な特徴量を用いたBoVWアプローチは、DAISYを用いて最大0.66の正確性を達成し、通常のSIFTやSURFを上回ったが、依然としてディープラーニングのベースラインに大きく劣っていた。
マルチレイヤーパーセプトロン (MLP) は0.6未満の正確性にとどまり、複雑な画像分類タスクには不十分であることが示された。
すべての層を非固定にしてInceptionV3を微調整した結果、0.96の最高正確性を達成し、小規模データセットにおけるトランスファー学習の強力さが裏付けられた。
パラメータ数がたった4,000個のカスタムCNN（TinyNet）が82.5％のテスト正確性を達成した。これは、データが限られる状況では、小規模で効率的なモデルが非常に効果的であることを示している。
通常の畳み込みをディープワイズ分離畳み込みに置き換えることで、パラメータ数を最大21倍まで削減（83Kから3.9Kに）したが、正確性は82.5％を維持した。これは、このアーキテクチャ的選択の効率性を強調している。
スクラッチから訓練した場合、モデルの深さとパラメータ数を増やしても、正確性は約90％までしか向上せず、これはデータ不足が主なボトルネックであり、モデル容量ではないことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。