[论文解读] Deep FisherNet for Object Classification
本文提出FisherNet,一种新型的端到端可训练深度神经网络,将Fisher向量(FV)编码与卷积神经网络(CNN)特征相结合,用于图像分类。通过使FV层可微分,并利用反向传播联合优化图像块特征与FV参数,FisherNet在PASCAL VOC数据集上实现了最先进性能,且推理速度比之前方法快10倍以上。
Despite the great success of convolutional neural networks (CNN) for the image classification task on datasets like Cifar and ImageNet, CNN's representation power is still somewhat limited in dealing with object images that have large variation in size and clutter, where Fisher Vector (FV) has shown to be an effective encoding strategy. FV encodes an image by aggregating local descriptors with a universal generative Gaussian Mixture Model (GMM). FV however has limited learning capability and its parameters are mostly fixed after constructing the codebook. To combine together the best of the two worlds, we propose in this paper a neural network structure with FV layer being part of an end-to-end trainable system that is differentiable; we name our network FisherNet that is learnable using backpropagation. Our proposed FisherNet combines convolutional neural network training and Fisher Vector encoding in a single end-to-end structure. We observe a clear advantage of FisherNet over plain CNN and standard FV in terms of both classification accuracy and computational efficiency on the challenging PASCAL VOC object classification task.
研究动机与目标
- 为解决标准CNN和固定参数Fisher向量(FV)编码在处理尺度和外观变化大、背景复杂的物体图像时的局限性。
- 克服传统FV不可微的问题,从而实现端到端训练中图像块特征与FV参数的联合优化。
- 开发一种可训练的FV层(Fisher层),使反向传播能够通过CNN特征与FV码书参数。
- 通过联合学习图像块表征与FV编码,提升PASCAL VOC基准上的分类准确率与计算效率。
- 证明Fisher向量与CNN特征联合端到端训练,在具有挑战性的图像分类任务中显著优于不可学习的FV与标准CNN。
提出的方法
- 提出一种新型神经网络架构FisherNet,其中可微分的Fisher层替代标准FV编码,使反向传播能够同时通过CNN特征提取器与FV码书。
- 使用可学习的高斯混合模型(GMM)参数化FV,使码书参数可通过梯度下降在训练过程中进行优化。
- 采用密集多尺度图像块提取(7个尺度:32×{2,3,...,8}),固定步长,共享CNN特征计算以提升效率。
- 引入Fisher层,通过GMM对数似然梯度聚合局部CNN特征,使整个过程可微分。
- 对最终的FV表征应用幂次归一化与L2归一化,以提升鲁棒性与泛化能力。
- 使用随机梯度下降端到端训练完整网络,最终图像表征用于训练线性SVM进行分类。
实验结果
研究问题
- RQ1能否使Fisher向量编码可微分,并集成到端到端深度学习框架中用于图像分类?
- RQ2与固定FV或标准CNN相比,联合优化基于CNN的图像块特征与FV参数是否能提升分类准确率?
- RQ3所提出的端到端训练策略是否能在准确率与推理速度上均优于先前的CNN-FV方法?
- RQ4FisherNet在PASCAL VOC基准上的性能与标准CNN及不可学习FV方法相比如何?
- RQ5端到端学习图像块特征与FV参数在不同物体类别上的性能提升程度如何?
主要发现
- FisherNet在PASCAL VOC 2007与2012上达到最先进性能,优于标准CNN及Liu等人[14]与Cimpoi等人[2]等先前的CNN-FV方法。
- 使用AlexNet时,每张图像的推理时间缩短至0.3秒,使用VGG16时为0.8秒,比之前最先进方法HCP快10倍以上。
- 与传统FV编码相比,端到端联合训练图像块特征与FV参数在PASCAL VOC 2007与2012上带来+2.9%的准确率提升。
- CNN-FV基线(固定FV)已优于标准CNN微调,但通过联合学习FV参数与图像块特征可获得进一步性能增益。
- Fisher层实现了对FV计算的有效反向传播,使整个网络可联合、自适应地进行训练。
- 所提方法表明,将深度CNN特征与可学习、可微分的FV编码相结合,可在复杂图像分类任务中实现更优性能与更高效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。