Skip to main content
QUICK REVIEW

[论文解读] Deep convolutional filter banks for texture recognition and segmentation

Mircea Cimpoi, Subhransu Maji|arXiv (Cornell University)|Nov 25, 2014
Advanced Image and Video Retrieval Techniques参考文献 32被引用 50
一句话总结

该论文提出FV-CNN,一种新颖的纹理描述符,通过将Fisher Vector池化应用于卷积神经网络(CNN)滤波器组,以提升在杂乱图像中的纹理、材质和场景识别性能。通过将CNN特征视为可学习的滤波器组,并采用无序、多尺度池化,FV-CNN在无需微调或图像缩放的情况下,实现了最先进性能——在Flickr Material数据集上达到79.8%,在MIT Indoor Scenes数据集上达到81.1%。

ABSTRACT

Research in texture recognition often concentrates on the problem of material recognition in uncluttered conditions, an assumption rarely met by applications. In this work we conduct a first study of material and describable texture at- tributes recognition in clutter, using a new dataset derived from the OpenSurface texture repository. Motivated by the challenge posed by this problem, we propose a new texture descriptor, D-CNN, obtained by Fisher Vector pooling of a Convolutional Neural Network (CNN) filter bank. D-CNN substantially improves the state-of-the-art in texture, mate- rial and scene recognition. Our approach achieves 82.3% accuracy on Flickr material dataset and 81.1% accuracy on MIT indoor scenes, providing absolute gains of more than 10% over existing approaches. D-CNN easily trans- fers across domains without requiring feature adaptation as for methods that build on the fully-connected layers of CNNs. Furthermore, D-CNN can seamlessly incorporate multi-scale information and describe regions of arbitrary shapes and sizes. Our approach is particularly suited at lo- calizing stuff categories and obtains state-of-the-art re- sults on MSRC segmentation dataset, as well as promising results on recognizing materials and surface attributes in clutter on the OpenSurfaces dataset.

研究动机与目标

  • 解决在真实世界、杂乱自然图像中进行材质和纹理属性识别的挑战,其中纹理并非孤立或均匀分布。
  • 克服现有基于CNN的方法依赖全连接层的局限性,这些方法对空间布局敏感、需要固定输入尺寸,且可能可迁移性较差。
  • 开发一种灵活、无序且多尺度的特征表示方法,在保留纹理特异性不变性的同时,实现无需微调的领域迁移。
  • 在基于OpenSurfaces数据集构建的新基准上评估所提方法,用于材质和纹理属性识别与分割。

提出的方法

  • 将预训练CNN(如VGG-M)中早期卷积层的激活图视为一种可学习的非线性滤波器组。
  • 对每个滤波器组的特征图应用Fisher Vector(FV)池化,以生成紧凑、无序且具有判别力的全局描述符。
  • 利用FV表示编码滤波器响应在空间位置上的分布,实现多尺度且与形状无关的特征聚合。
  • 直接通过卷积层处理任意尺寸的输入图像,避免全连接层所需的昂贵图像缩放操作。
  • 在FV-CNN特征上训练线性SVM用于分类,实现无需领域特定适配的快速且高效的识别。
  • 通过将FV-CNN区域描述符与通用图像分割算法(如清晰区域或重叠提议)结合,将方法扩展至弱监督分割。

实验结果

研究问题

  • RQ1Fisher Vector池化CNN滤波器组是否能在杂乱场景中实现优于标准CNN特征(如全连接层提取的特征)的纹理和材质识别性能?
  • RQ2与依赖全连接层的方法相比,FV-CNN是否在无需微调的情况下展现出更优的领域迁移能力?
  • RQ3FV-CNN在不同CNN层上的性能如何变化?哪一层提供了最具判别力的纹理表征?
  • RQ4FV-CNN是否能在无需CRF后处理或数据集特定训练的情况下,实现弱监督分割任务的最先进性能?
  • RQ5FV-CNN在真实世界、非杂乱且复杂场景中,对描述性纹理属性(如褶皱、大理石纹)和材质(如砖块、织物)的识别效果如何?

主要发现

  • 在Flickr Material数据集上,FV-CNN达到79.8%的准确率,相比之前最先进方法绝对提升超过10%。
  • 在MIT Indoor Scenes数据集上,FV-CNN达到81.1%的准确率,显著优于此前最先进方法的70.8%。
  • FV-CNN在所有评估数据集上均优于基于SIFT的Fisher Vector表示,且性能随网络深度从浅层到深层单调提升。
  • VGG-M的conv3层及更深的滤波器组生成的描述符显著优于SIFT,证明深度特征在纹理表征方面具有优越性。
  • FV-CNN实现了有效的弱监督分割:使用清晰区域时,在OpenSurfaces材质识别基准上达到55.4%的准确率,在MSRC上达到87.0%,无需CRF或领域特定训练即可匹配或超越先前结果。
  • 该方法对区域大小和形状具有鲁棒性,基于重叠提议的分割方法使用FV-CNN在OpenSurfaces上达到55.7%的准确率,展现出强大的泛化能力和灵活性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。