QUICK REVIEW

[论文解读] Fisher Vectors Derived from Hybrid Gaussian-Laplacian Mixture Models for Image Annotation

Benjamin Klein, Guy Lev|arXiv (Cornell University)|Nov 26, 2014

Advanced Image and Video Retrieval Techniques参考文献 45被引用 83

一句话总结

本论文提出基于拉普拉斯高斯混合模型（LMM）和混合高斯-拉普拉斯高斯混合模型（HGLMM）的费雪向量，其在图像标注和基于句子的图像搜索任务上优于传统的基于高斯混合模型（GMM）的费雪向量。HGLMM模型在EM优化过程中，对每个维度自适应地选择高斯或拉普拉斯分布，从而更优地建模重尾描述符分布，并在Flickr8k数据集上实现了图像字幕生成的最先进性能，采用HGLMM编码的词嵌入与RNN结合。

ABSTRACT

In the traditional object recognition pipeline, descriptors are densely sampled over an image, pooled into a high dimensional non-linear representation and then passed to a classifier. In recent years, Fisher Vectors have proven empirically to be the leading representation for a large variety of applications. The Fisher Vector is typically taken as the gradients of the log-likelihood of descriptors, with respect to the parameters of a Gaussian Mixture Model (GMM). Motivated by the assumption that different distributions should be applied for different datasets, we present two other Mixture Models and derive their Expectation-Maximization and Fisher Vector expressions. The first is a Laplacian Mixture Model (LMM), which is based on the Laplacian distribution. The second Mixture Model presented is a Hybrid Gaussian-Laplacian Mixture Model (HGLMM) which is based on a weighted geometric mean of the Gaussian and Laplacian distribution. An interesting property of the Expectation-Maximization algorithm for the latter is that in the maximization step, each dimension in each component is chosen to be either a Gaussian or a Laplacian. Finally, by using the new Fisher Vectors derived from HGLMMs, we achieve state-of-the-art results for both the image annotation and the image search by a sentence tasks.

研究动机与目标

通过用更适合重尾描述符统计特性的替代分布替换费雪向量表示中的标准高斯混合模型（GMM），以提升图像标注与文本到图像检索的性能。
开发拉普拉斯高斯混合模型（LMM）与混合高斯-拉普拉斯高斯混合模型（HGLMM），以更准确地捕捉SIFT描述符的分布特性，优于GMM。
推导LMM与HGLMM的完整期望最大化（EM）算法与费雪向量公式，支持端到端训练与推理。
在图像标注与基于句子的图像搜索任务上评估新型费雪向量变体，验证其达到最先进性能。
通过将HGLMM费雪向量投影到共享的CCA空间，实现端到端的图像字幕生成，支持通过RNN进行联合建模。

提出的方法

在对角协方差假设下提出多变量拉普拉斯分布，作为拉普拉斯高斯混合模型（LMM）的基础。
推导LMM的EM算法，包括E步与M步公式，并实现组件参数的闭式更新。
引入混合高斯-拉普拉斯分布，作为高斯与拉普拉斯密度的加权几何平均，实现每个维度的灵活建模。
推导HGLMM的EM算法，表明M步导致每个组件中每个维度的二元决策：仅选择高斯或拉普拉斯分布，而非混合分布。
对HGLMM费雪向量应用幂次归一化与L2归一化，遵循Perronnin等人提出的标准归一化方案，以提升性能。
将图像特征（通过VGG或Overfeat提取）与词嵌入（通过word2vec生成）投影到共享的CCA空间，使用HGLMM费雪向量对词级别表示进行编码，构建联合图像-句子嵌入空间。

实验结果

研究问题

RQ1与标准的基于GMM的费雪向量相比，基于拉普拉斯高斯混合模型（LMM）的费雪向量是否能提升图像标注与文本到图像检索的性能？
RQ2一种在每个维度上自适应选择高斯或拉普拉斯分布的混合高斯-拉普拉斯高斯混合模型（HGLMM），是否在性能上优于单独使用GMM或LMM？
RQ3基于HGLMM的费雪向量能否有效表示共享嵌入空间中的词向量，从而支持通过RNN实现准确的图像字幕生成？
RQ4标准费雪向量中使用的归一化方案（幂次归一化与L2归一化）对HGLMM生成的费雪向量是否同样有效？
RQ5在基于CCA的联合嵌入框架中使用HGLMM费雪向量，是否能在图像字幕生成与基于句子的图像搜索任务中达到最先进性能？

主要发现

基于HGLMM的费雪向量在Flickr8k数据集上实现了图像标注与基于句子的图像搜索的最先进性能，优于基于GMM与LMM的费雪向量。
HGLMM的EM算法在每个组件的每个维度上产生二元决策，选择高斯或拉普拉斯分布，从而更优地建模重尾SIFT描述符分布。
在基于CCA的联合嵌入空间中使用HGLMM费雪向量，可实现有效的图像字幕生成，采用RNN进行解码，其结构为512个LSTM单元，采用贪婪确定性解码策略。
该方法在Flickr8k数据集上取得优越性能，定量结果显示在图像到句子与句子到图像匹配任务中，均优于先前的最先进方法。
模型使用SGD训练300个周期，学习率为0.00001，动量为0.5，基于验证集性能进行早停。
基于RNN的字幕生成模型在每个解码步骤中，将word2vec嵌入的HGLMM费雪向量作为输入，实现在共享CCA空间中图像与句子的一致表示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。