QUICK REVIEW

[论文解读] Image Classification with Classic and Deep Learning Techniques

Òscar Lorente, Ian Riera|arXiv (Cornell University)|May 11, 2021

Advanced Image and Video Retrieval Techniques参考文献 11被引用 23

一句话总结

该论文在包含2,688张图像的8分类数据集上评估了经典方法与深度学习方法在图像分类中的表现，对比了Bag of Visual Words (BoVW) 与支持向量机（SVM）、多层感知机（MLP）、微调后的InceptionV3以及自定义卷积神经网络（TinyNet）的表现。研究发现，尽管预训练模型如InceptionV3可达到96%的准确率，但仅含4,000个参数的轻量化自定义CNN模型也达到了82.5%的准确率，表明在数据有限的情况下，小型高效模型可超越大型网络架构。

ABSTRACT

To classify images based on their content is one of the most studied topics in the field of computer vision. Nowadays, this problem can be addressed using modern techniques such as Convolutional Neural Networks (CNN), but over the years different classical methods have been developed. In this report, we implement an image classifier using both classic computer vision and deep learning techniques. Specifically, we study the performance of a Bag of Visual Words classifier using Support Vector Machines, a Multilayer Perceptron, an existing architecture named InceptionV3 and our own CNN, TinyNet, designed from scratch. We evaluate each of the cases in terms of accuracy and loss, and we obtain results that vary between 0.6 and 0.96 depending on the model and configuration used.

研究动机与目标

评估经典计算机视觉技术（如Bag of Visual Words (BoVW) 和支持向量机（SVM））在图像分类任务中的性能。
评估深度学习模型（包括多层感知机（MLP）、微调后的InceptionV3以及自定义CNN（TinyNet））在小型、平衡图像数据集上的有效性。
研究模型架构、深度可分离卷积以及优化技术对准确率与参数效率的影响。
确定在训练数据有限的情况下，从零开始训练小型CNN是否能与微调大型预训练模型达到相当的性能。
分析在低数据环境下，模型复杂度、参数数量与性能之间的权衡。

提出的方法

使用局部描述子（SIFT、SURF、DAISY）结合密集关键点采样，实现BoVW系统，并在视觉词直方图上训练SVM分类器。
设计并训练一个多层感知机（MLP）作为图像分类任务的基线深度学习模型。
在数据集上对预训练的InceptionV3架构进行微调，涵盖特征提取模式中冻结与未冻结所有层的两种设置。
从零开始设计并训练一个轻量化CNN（TinyNet），包含4–5个卷积层，采用ReLU激活函数、批量归一化和最大池化操作。
应用深度可分离卷积以减少模型大小与参数数量，同时保持性能。
采用先进的优化技术，包括One Cycle策略和学习率查找器，以加速训练并提升收敛性。

实验结果

研究问题

RQ1在小型图像分类数据集上，经典计算机视觉方法（如BoVW与SVM）与现代深度学习模型相比，性能如何？
RQ2使用密集关键点检测与稀疏关键点检测对基于BoVW的分类准确率有何影响？
RQ3在训练数据有限的情况下，能否通过从零开始训练的小型自定义CNN实现与微调后的预训练模型（如InceptionV3）相当的准确率？
RQ4在不牺牲分类准确率的前提下，深度可分离卷积在多大程度上减少了模型大小与参数数量？
RQ5在低数据环境下，高级优化技术（如One Cycle策略）如何影响训练速度与模型收敛性？

主要发现

使用密集描述子的BoVW方法在DAISY描述子下达到最高0.66的准确率，优于原始SIFT与SURF，但仍显著低于深度学习基线模型。
多层感知机（MLP）表现欠佳，准确率低于0.6，表明其在复杂图像分类任务中能力不足。
将InceptionV3的所有层均设为未冻结并进行微调，达到了0.96的最高准确率，证明了在小样本数据集上迁移学习的强大效果。
仅含4,000个参数的自定义CNN（TinyNet）在测试集上达到82.5%的准确率，表明在数据有限时，小型高效模型可极为有效。
将普通卷积替换为深度可分离卷积，使参数数量减少至原来的约1/21（从83K降至3.9K），同时保持82.5%的准确率，凸显了该架构选择的高效性。
尽管增加模型深度与参数数量，但从零开始训练时准确率仍无法超过约90%，表明数据稀缺是主要瓶颈，而非模型容量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。