QUICK REVIEW

[논문 리뷰] Fisher Vectors Derived from Hybrid Gaussian-Laplacian Mixture Models for Image Annotation

Benjamin Klein, Guy Lev|arXiv (Cornell University)|2014. 11. 26.

Advanced Image and Video Retrieval Techniques참고 문헌 45인용 수 83

한 줄 요약

이 논문은 SIFT 기반 기술자 분포의 비정상적인 꼬리(heavy-tailed) 특성을 더 잘 모델링할 수 있도록, 라플라스 혼합 모델(Laplacian Mixture Models, LMM)과 하이브리드 가우시안-라플라스 혼합 모델(Hybrid Gaussian-Laplacian Mixture Models, HGLMM)을 기반으로 한 파이셔 벡터를 제안한다. 이는 전통적인 가우시안 혼합 모델(Gaussian Mixture Model, GMM)-기반 파이셔 벡터보다 이미지 애너테이션 및 문장 기반 이미지 검색에서 뛰어난 성능을 보인다. HGLMM 모델은 EM 최적화 과정에서 각 차원에 대해 가우시안 또는 라플라스 분포를 자동으로 선택함으로써, 비정상적인 꼬리 분포를 더 잘 표현할 수 있으며, RNN 기반 이미지 캡션 생성에서 HGLMM로 인코딩된 단어 표현을 사용할 경우, Flickr8k 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

In the traditional object recognition pipeline, descriptors are densely sampled over an image, pooled into a high dimensional non-linear representation and then passed to a classifier. In recent years, Fisher Vectors have proven empirically to be the leading representation for a large variety of applications. The Fisher Vector is typically taken as the gradients of the log-likelihood of descriptors, with respect to the parameters of a Gaussian Mixture Model (GMM). Motivated by the assumption that different distributions should be applied for different datasets, we present two other Mixture Models and derive their Expectation-Maximization and Fisher Vector expressions. The first is a Laplacian Mixture Model (LMM), which is based on the Laplacian distribution. The second Mixture Model presented is a Hybrid Gaussian-Laplacian Mixture Model (HGLMM) which is based on a weighted geometric mean of the Gaussian and Laplacian distribution. An interesting property of the Expectation-Maximization algorithm for the latter is that in the maximization step, each dimension in each component is chosen to be either a Gaussian or a Laplacian. Finally, by using the new Fisher Vectors derived from HGLMMs, we achieve state-of-the-art results for both the image annotation and the image search by a sentence tasks.

연구 동기 및 목표

이중 꼬리 분포를 띠는 기술자 통계에 더 적합한 분포로 표준 가우시안 혼합 모델(Gaussian Mixture Model, GMM)을 대체함으로써 이미지 애너테이션 및 텍스트 기반 이미지 검색 성능을 향상시키는 것.
기존 GMM보다 SIFT 기술자 분포를 더 잘 포괄할 수 있는 라플라스 혼합 모델(Laplacian Mixture Model, LMM)과 하이브리드 가우시안-라플라스 혼합 모델(Hybrid Gaussian-Laplacian Mixture Model, HGLMM)을 개발하는 것.
LMM 및 HGLMM에 대해 유효한 기대최대화(Expectation-Maximization, EM) 및 파이셔 벡터 공식화를 유도하여 엔드 투 엔드 학습 및 추론를 가능하게 하는 것.
새로운 파이셔 벡터 변종을 이미지 애너테이션 및 문장 기반 이미지 검색에서 평가하여 최신 기술 수준의 성능을 입증하는 것.
이미지와 단어 표현을 공통 CCA 공간에 투영함으로써 HGLMM 파이셔 벡터를 사용해 엔드 투 엔드 이미지 캡션 생성을 가능하게 하는 것.

제안 방법

대각행렬 공분산을 가정한 다변량 라플라스 분포를 제안하여 라플라스 혼합 모델(Laplacian Mixture Model, LMM)의 기초를 마련한다.
LMM의 EM 알고리즘을 유도하며, E단계 및 M단계의 수식을 포함하고, 구성 요소 파라미터에 대해 닫힌 형태의 갱신식을 도출한다.
가우시안 및 라플라스 밀도의 가중 기하 평균으로 구성된 하이브리드 가우시안-라플라스 분포를 도입하여, 각 차원에서의 모델링 유연성을 확보한다.
HGLMM의 EM 알고리즘을 유도하며, M단계에서 각 구성 요소의 각 차원이 가우시안 또는 라플라스 분포로 이원적으로 결정됨을 보여주며, 혼합 형태가 아닌 단일 선택을 한다.
성능 향상을 위해 표준 파이셔 벡터의 정규화 체계(Perronnin 등의 방식)를 따르며, HGLMM 파이셔 벡터에 대해 거듭제곱 정규화 및 L2 정규화를 적용한다.
이미지 특징(VGG 또는 Overfeat를 통해)과 단어 표현(word2vec를 통해)을 공통 CCA 공간에 투영하며, 공통 임베딩 공간 내에서 단어 수준의 인코딩에 HGLMM 파이셔 벡터를 사용한다.

실험 결과

연구 질문

RQ1라플라스 혼합 모델(Laplacian Mixture Model, LMM)에서 유도된 파이셔 벡터가 기존 GMM-기반 파이셔 벡터보다 이미지 애너테이션 및 텍스트 기반 이미지 검색에서 성능 향상을 이룰 수 있는가?
RQ2각 차원에서 가우시안 또는 라플라스 분포를 적응적으로 선택하는 하이브리드 가우시안-라플라스 혼합 모델(Hybrid Gaussian-Laplacian Mixture Model, HGLMM)이 GMM나 LMM보다 더 뛰어난 성능을 내는가?
RQ3HGLMM 기반 파이셔 벡터가 이미지와 공통된 임베딩 공간에서 효과적으로 단어를 표현할 수 있는가? 이를 통해 RNN 기반의 정확한 이미지 캡션 생성이 가능한가?
RQ4기존 파이셔 벡터에서 사용하는 정규화 체계(거듭제곱 및 L2 정규화)가 HGLMM 기반 파이셔 벡터에도 동일하게 효과적인가?
RQ5CCA 기반의 공동 임베딩 프레임워크에서 HGLMM 파이셔 벡터를 사용할 경우, 이미지 캡션 및 문장 기반 이미지 검색에서 최신 기술 수준의 결과를 달성할 수 있는가?

주요 결과

HGLMM 기반 파이셔 벡터는 Flickr8k 데이터셋에서 이미지 애너테이션 및 문장 기반 이미지 검색에서 최신 기술 수준의 성능을 달성하며, GMM 및 LMM 기반 파이셔 벡터를 모두 초월한다.
HGLMM의 EM 알고리즘은 각 구성 요소의 각 차원에 대해 이원적으로 가우시안 또는 라플라스 분포를 선택함으로써, 비정상적인 꼬리 분포를 가진 SIFT 기술자 분포를 더 잘 모델링할 수 있다.
CCA 기반 공동 임베딩 공간에서 HGLMM 파이셔 벡터를 사용함으로써 효과적인 이미지 캡션 생성이 가능하며, 512개의 LSTM 유닛을 가진 RNN에서 탐욕적 결정적 디코딩 전략을 적용하였다.
제안된 방법은 Flickr8k 데이터셋에서 뛰어난 성능을 달성하였으며, 정량적 결과로써 이미지-문장 매칭 및 문장-이미지 매칭 과제에서 이전 최신 기술 수준의 방법들을 초월하는 정확도 향상을 입증하였다.
학습은 SGD를 사용하여 300 에포크 동안 수행되었으며, 학습률은 0.00001, 모멘타는 0.5로 설정되었고, 검증 세트 성능에 기반한 조기 정지 전략을 적용하였다.
RNN 기반 캡션 생성 모델은 각 디코딩 단계에서 word2vec 임베딩의 HGLMM 파이셔 벡터를 입력으로 사용하여, 공통 CCA 공간 내에서 이미지와 문장 간 일관된 표현을 확보하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.