Skip to main content
QUICK REVIEW

[论文解读] Generalized Max Pooling

Naila Murray, Florent Perronnin|arXiv (Cornell University)|Jun 2, 2014
Advanced Image and Video Retrieval Techniques参考文献 30被引用 31
一句话总结

本文提出广义最大池化(GMP),一种新型池化机制,通过基于与聚合表示的相似性重新加权每个图像块的统计量,使频繁和稀有视觉描述符在图像表征中的影响均衡化,从而将最大池化从基于计数的模型(如词袋视觉模型)扩展到最先进的方法(如Fisher向量)。GMP在五个公开图像分类基准上实现了显著的性能提升。

ABSTRACT

State-of-the-art patch-based image representations involve a pooling operation that aggregates statistics computed from local descriptors. Standard pooling operations include sum- and max-pooling. Sum-pooling lacks discriminability because the resulting representation is strongly influenced by frequent yet often uninformative descriptors, but only weakly influenced by rare yet potentially highly-informative ones. Max-pooling equalizes the influence of frequent and rare descriptors but is only applicable to representations that rely on count statistics, such as the bag-of-visual-words (BOV) and its soft- and sparse-coding extensions. We propose a novel pooling mechanism that achieves the same effect as max-pooling but is applicable beyond the BOV and especially to the state-of-the-art Fisher Vector -- hence the name Generalized Max Pooling (GMP). It involves equalizing the similarity between each patch and the pooled representation, which is shown to be equivalent to re-weighting the per-patch statistics. We show on five public image classification benchmarks that the proposed GMP can lead to significant performance gains with respect to heuristic alternatives.

研究动机与目标

  • 解决求和池化存在的局限性,即其受频繁但无信息量的描述符主导。
  • 克服标准最大池化仅适用于基于计数的表征(如词袋视觉模型)的限制。
  • 开发一种通用且原理严谨的池化方法,适用于非基于计数的表征(如Fisher向量)。
  • 在减少频繁描述符主导性的同时,保留稀有但高信息量描述符的判别性信息。
  • 提供一个统一框架,在不改变网络架构的前提下,提升多种图像表征技术的性能。

提出的方法

  • 提出广义最大池化(GMP)作为重新加权机制,使每个图像块编码在聚合表征中的影响均衡化。
  • 将GMP形式化为一个正则化优化问题,通过最小化重构误差并强制所有现有描述符贡献相等,实现均衡化。
  • 利用编码矩阵的伪逆推导出GMP的闭式解,确保计算效率。
  • 证明GMP在二值硬编码情形(如标准BOV)下等价于最大池化,从而实现对最大池化的广义化。
  • 通过基于与聚合表示相似性的方法,对Fisher向量中的每个图像块统计量进行重新加权。
  • 通过利用码书矩阵的正交性,确保嵌入空间旋转不变性。

实验结果

研究问题

  • RQ1能否设计一种池化机制,使非基于计数的表征中频繁与稀有视觉描述符的影响达到平衡?
  • RQ2在标准图像分类基准上,GMP与启发式替代方法相比性能如何?
  • RQ3在使用低维码字时,GMP对Fisher向量表征的提升程度如何?
  • RQ4GMP是否与增加Fisher向量编码中高斯混合数量具有互补性?
  • RQ5与类似方法(如民主聚合)不同,GMP能否在原始空间中高效计算?

主要发现

  • GMP在五个公开基准上显著提升了图像分类性能,优于求和池化和启发式替代方法。
  • 在CUB-2011数据集上,使用16个高斯混合的Fisher向量,GMP达到23.4%的top-1准确率,与其它池化方法的基线结果相当或更优。
  • 当与更多高斯混合(如256个)结合时,GMP进一步提升性能,显示出与更大码书尺寸的强互补性。
  • 在CUB-2011上,使用16个高斯混合时,EMK结合GMP达到24.8%的top-1准确率,超过FV结合GMP的23.4%。
  • GMP使低维Fisher向量具备竞争力,特别适用于资源受限的场景。
  • 理论分析证实,GMP在硬编码情形(如BOV)下等价于最大池化,验证了其作为原理性广义化的合理性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。