QUICK REVIEW

[論文レビュー] Fisher Vectors Derived from Hybrid Gaussian-Laplacian Mixture Models for Image Annotation

Benjamin Klein, Guy Lev|arXiv (Cornell University)|Nov 26, 2014

Advanced Image and Video Retrieval Techniques参考文献 45被引用数 83

ひとこと要約

本稿では、ラプラス混合モデル（LMM）およびハイブリッドガウス-ラプラス混合モデル（HGLMM）に基づくフィッシャー・ベクトルを提案し、画像アノテーションおよび文ベースの画像検索において、従来のガウス混合モデル（GMM）に基づくフィッシャー・ベクトルを上回る性能を発揮することを示している。HGLMMモデルはEM最適化中に次元ごとにガウス分布またはラプラス分布を適応的に選択するため、重たい尾を持つ記述子分布のモデリングが向上し、RNNを用いた画像キャプション生成においてFlickr8kで最先端の性能を達成している。

ABSTRACT

In the traditional object recognition pipeline, descriptors are densely sampled over an image, pooled into a high dimensional non-linear representation and then passed to a classifier. In recent years, Fisher Vectors have proven empirically to be the leading representation for a large variety of applications. The Fisher Vector is typically taken as the gradients of the log-likelihood of descriptors, with respect to the parameters of a Gaussian Mixture Model (GMM). Motivated by the assumption that different distributions should be applied for different datasets, we present two other Mixture Models and derive their Expectation-Maximization and Fisher Vector expressions. The first is a Laplacian Mixture Model (LMM), which is based on the Laplacian distribution. The second Mixture Model presented is a Hybrid Gaussian-Laplacian Mixture Model (HGLMM) which is based on a weighted geometric mean of the Gaussian and Laplacian distribution. An interesting property of the Expectation-Maximization algorithm for the latter is that in the maximization step, each dimension in each component is chosen to be either a Gaussian or a Laplacian. Finally, by using the new Fisher Vectors derived from HGLMMs, we achieve state-of-the-art results for both the image annotation and the image search by a sentence tasks.

研究の動機と目的

画像アノテーションおよびテキストから画像への検索を改善するために、フィッシャー・ベクトル表現における標準的なガウス混合モデル（GMM）を、重たい尾を持つ記述子統計に適した代替分布に置き換えること。
SIFT記述子の分布をGMMよりもよく捉えることができるラプラス混合モデル（LMM）およびハイブリッドガウス-ラプラス混合モデル（HGLMM）を構築すること。
LMMおよびHGLMMに対して有効な期待最大化（EM）およびフィッシャー・ベクトルの定式化を導出することにより、エンドツーエンドの学習と推論を可能にすること。
新しいフィッシャー・ベクトルの変種を画像アノテーションおよび文ベースの画像検索において評価し、最先端の性能を示すこと。
HGLMMフィッシャー・ベクトルを画像と統合的にモデリングできる共有CCA空間に投影することで、エンドツーエンドの画像キャプション生成を可能にすること。

提案手法

対角共分散仮定の下での多次元ラプラス分布を提案し、これに基づきラプラス混合モデル（LMM）を構築する。
LMMのためのEMアルゴリズムを導出する。EステップおよびMステップの式を提示し、成分パラメータに対して閉形式の更新式を提供する。
ガウス分布とラプラス分布の密度の重み付き幾何平均として、ハイブリッドガウス-ラプラス分布を導入し、次元ごとの柔軟なモデリングを可能にする。
HGLMMのためのEMアルゴリズムを導出し、Mステップが各成分の各次元についてガウス分布またはラプラス分布の二値的選択を生じさせることを示す。混合ではなく、明確な選択となる。
性能向上のため、Perronninらの標準的な正規化方式に従い、HGLMMフィッシャー・ベクトルにパワー正規化およびL2正規化を適用する。
VGGまたはOverfeatを介した画像特徴およびword2vecを介した語の表現を、HGLMMフィッシャー・ベクトルによる語レベルの符号化を用いて、共有CCA空間に投影する。これにより、画像と文の統合的埋め込み空間が実現される。

実験結果

リサーチクエスチョン

RQ1ラプラス混合モデル（LMM）に基づくフィッシャー・ベクトルは、標準的なGMMベースのフィッシャー・ベクトルと比較して、画像アノテーションおよびテキストから画像への検索において性能向上を達成できるか？
RQ2次元ごとにガウス分布またはラプラス分布を適応的に選択するハイブリッドガウス-ラプラス混合モデル（HGLMM）は、GMMまたはLMM単体と比較して、より優れた性能を発揮するか？
RQ3HGLMMベースのフィッシャー・ベクトルは、画像と統合的にモデリング可能な共有埋め込み空間で語を効果的に表現できるか？これにより、RNNを用いた正確な画像キャプション生成が可能になるか？
RQ4標準的なフィッシャー・ベクトルで用いられる正規化方式（パワー正規化およびL2正規化）は、HGLMM由来のフィッシャー・ベクトルに対しても同等に効果的か？
RQ5CCAベースの統合埋め込みフレームワークにおいてHGLMMフィッシャー・ベクトルを用いることで、画像キャプション生成および文ベースの画像検索で最先端の結果が得られるか？

主な発見

HGLMMベースのフィッシャー・ベクトルは、Flickr8kデータセットにおいて、画像アノテーションおよび文ベースの画像検索で最先端の性能を達成し、GMMおよびLMMベースのフィッシャー・ベクトルを上回っている。
HGLMMのためのEMアルゴリズムは、各成分の各次元について、ガウス分布またはラプラス分布の二値的選択を生じさせ、重たい尾を持つSIFT記述子分布のモデリングを向上させている。
CCAベースの統合埋め込み空間におけるHGLMMフィッシャー・ベクトルの使用により、効果的な画像キャプション生成が可能となり、512ユニットのLSTMを備えたRNNにおけるグリーディで決定的なデコード戦略が有効に機能している。
提案手法はFlickr8kデータセットで優れた性能を発揮し、定量的評価では、画像から文へのマッチングおよび文から画像へのマッチングの両タスクで、先行研究の最先端手法を上回っている。
モデルはSGDを用いて300エポックの訓練を実施し、学習率は0.00001、モーメンタムは0.5として、検証セットの性能に基づいた早期停止を適用した。
RNNベースのキャプション生成モデルは、各デコードステップでword2vec埋め込みのHGLMMフィッシャー・ベクトルを入力として用い、共有CCA空間内での画像と文の間で一貫した表現が実現されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。