QUICK REVIEW

[论文解读] Compact Bilinear Pooling

Yang Gao, Oscar Beijbom|arXiv (Cornell University)|Nov 19, 2015

Advanced Neural Network Applications参考文献 43被引用 46

一句话总结

本文提出两种紧凑型双线性池化方法——张量压缩（TS）与随机映射（RM），可将高维双线性特征（最高达250,000维）压缩至仅8,192维，且性能损失极小。通过利用多项式核的核化分析并支持端到端反向传播，该方法在图像分类与少样本学习任务中达到最先进性能，同时实现高效存储与部署。

ABSTRACT

Bilinear models has been shown to achieve impressive performance on a wide range of visual tasks, such as semantic segmentation, fine grained recognition and face recognition. However, bilinear features are high dimensional, typically on the order of hundreds of thousands to a few million, which makes them impractical for subsequent analysis. We propose two compact bilinear representations with the same discriminative power as the full bilinear representation but with only a few thousand dimensions. Our compact representations allow back-propagation of classification errors enabling an end-to-end optimization of the visual recognition system. The compact bilinear representations are derived through a novel kernelized analysis of bilinear pooling which provide insights into the discriminative power of bilinear pooling, and a platform for further research in compact pooling methods. Experimentation illustrate the utility of the proposed representations for image classification and few-shot learning across several datasets.

研究动机与目标

为解决双线性池化特征的高维性问题，其维度超过250,000维，阻碍了在分类、检索及少样本学习中的实际部署。
开发具有紧凑性的双线性表征，在大幅降低特征维度的同时保留完整双线性池化的判别能力。
支持通过紧凑池化层进行端到端反向传播，实现整个识别流程的联合优化。
提供双线性池化的核化理论框架，为所提出的紧凑方法提供理论依据与动机。
在真实场景中展示紧凑双线性池化的实用性，如图像检索、嵌入式部署及少样本学习。

提出的方法

该方法采用张量压缩（TS）与随机映射（RM），利用随机特征映射将高维双线性特征投影至8,192维的低维空间。
基于双线性池化与多项式核（特别是二阶多项式核）之间的联系，推导出计算高效的显式特征映射。
采用Kar（2012）与Pham（2013）的工作中提出的基于随机投影的多项式核近似方法，并将其适配至双线性池化设置。
通过随机投影的梯度高效计算紧凑双线性层的反向传播，支持深度网络的端到端训练。
在对每个激活图应用压缩变换后，通过全局平均池化操作获得紧凑特征的全局紧凑描述符。
该方法在Caffe与MatConvNet中实现，公开代码可供复现与集成。

实验结果

研究问题

RQ1双线性池化特征能否被压缩至数千维，而不会显著损失判别能力？
RQ2紧凑型双线性池化能否集成至深度神经网络中，支持端到端反向传播以实现联合优化？
RQ3双线性池化的核化解释是否能为推导紧凑表征提供合理理论基础？
RQ4与Fisher向量及全连接池化等最先进方法相比，紧凑型双线性池化在图像分类与少样本学习中的表现如何？
RQ5紧凑型双线性池化能否在低数据场景（如少样本学习）中提升性能？

主要发现

采用张量压缩（TS）的紧凑型双线性池化方法在CUB-200-2011纹理分类数据集上达到32.29%的错误率，优于Fisher向量，且仅用8,192维即达到与完整双线性池化相当的性能。
在MIT Indoor场景数据集上，TS实现1.06%的错误率，较Fisher向量提升2.09%，且在96.5%的压缩率下与完整双线性池化性能一致。
在CUB数据集上，每类仅一个样本的少样本学习中，TS达到15.5%的准确率，较完整双线性池化（12.7%）提升2.9个百分点，表明在低数据场景下具有更优泛化能力。
即使在每类三张样本的情况下，完整双线性池化与TS之间的性能差距仍稳定保持在2.5%左右，表明低维特征持续带来优势。
微调使完整与紧凑型双线性池化的性能均下降，表明高维表示在小样本数据集中可能更易过拟合。
该方法实现了96.5%的特征维度压缩（从250,000维降至8,192维），显著减少模型参数与存储需求，有利于部署与检索。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。