QUICK REVIEW

[論文レビュー] Encoding High Dimensional Local Features by Sparse Coding Based Fisher Vectors

Lingqiao Liu, Chunhua Shen|arXiv (Cornell University)|Nov 24, 2014

Advanced Image and Video Retrieval Techniques参考文献 23被引用数 67

ひとこと要約

本稿では、局所特徴の高次元表現を、部分空間からサンプリングされたガウス分布の平均を用いてモデル化するスパースコーディングに基づくフィッシャー・ベクトルコーディング（SCFVC）を提案する。この手法により、スパースコーディングに基づく推論が効率的に行える。SCFVCは、高次元特徴における従来のGMMベースのフィッシャー・ベクトルコーディングを著しく上回り、汎用的物体認識、屋内シーン認識、および細分化画像認識の分野で最先端の性能を達成した。

ABSTRACT

Deriving from the gradient vector of a generative model of local features, Fisher vector coding (FVC) has been identified as an effective coding method for image classification. Most, if not all, % FVC implementations employ the Gaussian mixture model (GMM) to characterize the generation process of local features. This choice has shown to be sufficient for traditional low dimensional local features, e.g., SIFT; and typically, good performance can be achieved with only a few hundred Gaussian distributions. However, the same number of Gaussians is insufficient to model the feature space spanned by higher dimensional local features, which have become popular recently. In order to improve the modeling capacity for high dimensional features, it turns out to be inefficient and computationally impractical to simply increase the number of Gaussians. In this paper, we propose a model in which each local feature is drawn from a Gaussian distribution whose mean vector is sampled from a subspace. With certain approximation, this model can be converted to a sparse coding procedure and the learning/inference problems can be readily solved by standard sparse coding methods. By calculating the gradient vector of the proposed model, we derive a new fisher vector encoding strategy, termed Sparse Coding based Fisher Vector Coding (SCFVC). Moreover, we adopt the recently developed Deep Convolutional Neural Network (CNN) descriptor as a high dimensional local feature and implement image classification with the proposed SCFVC. Our experimental evaluations demonstrate that our method not only significantly outperforms the traditional GMM based Fisher vector encoding but also achieves the state-of-the-art performance in generic object recognition, indoor scene, and fine-grained image classification problems.

研究の動機と目的

高次元局所特徴のモデリングに際して、モデル表現能力が不十分であるため、従来のガウス・ミクスチャーモデル（GMM）ベースのフィッシャー・ベクトルコーディングの限界を解消すること。
高次元特徴空間をモデル化するためのGMM成分数の増加による計算上の非現実性を克服すること。
高次元特徴に高い識別力を維持しつつ、スケーラブルで効率的なGMM-FVCの代替手法を開発すること。
深層畳み込みニューラルネットワーク（CNN）の活性化特徴を局所特徴として組み合わせた際の、SCFVCの優位性を、多様な画像認識タスクにおいて実証すること。

提案手法

各局所特徴が、低次元部分空間からサンプリングされた平均を持つガウス分布に従う生成モデルを提案する。
モデルをスパースコーディング問題に近似することで、標準的なスパースコーディングソルバーを用いた学習と推論が可能になる。
モデルの対数尤度をパラメータに関して微分することでフィッシャー・ベクトル符号化を導出し、結果としてSCFVCが得られる。
画像表現のための高次元局所記述子として、事前学習済みの深層畳み込みニューラルネットワーク（CNN）特徴を活用する。
CNNに基づく局所特徴をSCFVCで符号化し、完全な画像認識パイプラインを構築する。
学習されたFISTAや直交一致 Pursuitなどの効率的なスパースコーディングアルゴリズムを活用することで、計算の現実性を確保する。

実験結果

リサーチクエスチョン

RQ1従来のGMMベースのフィッシャー・ベクトルコーディングは、深層CNN活性化特徴のような高次元局所特徴を効果的にモデル化できるか？
RQ2ガウス分布の平均を部分空間内の点としてモデル化することで、標準的なGMMと比較して高次元特徴の表現能力が向上するか？
RQ3提案されたモデルをスパースコーディング問題に再定式化でき、効率的な学習と推論が可能になるか？
RQ4多様な画像認識ベンチマークにおいて、SCFVCは高次元特徴を符号化する際、GMM-FVCを上回る性能を示すか？
RQ5SCFVCは、汎用的物体認識、屋内シーン認識、および細分化画像認識タスクで最先端の性能を達成できるか？

主な発見

100個の基底と1000次元のCNN特徴を用いて、MIT-67データセットで68.1%の精度を達成した。これは、400混合素子と300次元特徴を用いたGMM-FVC（64.0%）および1000混合素子と100次元特徴を用いたGMM-FVC（60.8%）を著しく上回った。
低次元特徴（例：100次元）では、SCFVCとGMM-FVCの性能はほぼ同等であるが、SCFVCは100次元から1000次元への変換で7%の性能向上を示したのに対し、GMM-FVCは4%の向上にとどまった。
PCAによる高次元特徴の低次元化とGMM成分数の増加では、識別力の回復が見られず、高次元特徴が本質的な情報を保持していることが示された。
細分化された鳥の画像認識において、部分ベースの情報（DPD+CNN+LogReg）を用いた手法よりもSCFVCが優れた性能を示した。これは、SCFVC符号化を施した深層特徴が、部分ベースのモデルよりも効果的であることを示唆している。
基底数が少ない（例：100）場合でも、SCFVCは強力な性能を維持しており、効率性とスケーラビリティを示した。
近似スパースコーディングアルゴリズムを活用することで、計算の非現実性を回避し、高次元モデリングの複雑性にもかかわらずSCFVCの実用性を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。