QUICK REVIEW

[논문 리뷰] Learning Deep Embeddings with Histogram Loss

Evgeniya Ustinova, Victor Lempitsky|arXiv (Cornell University)|2016. 11. 02.

Human Pose and Action Recognition참고 문헌 30인용 수 260

한 줄 요약

본 논문은 히스토그램을 사용하여 배치 내 양의 쌍과 음의 쌍 유사도 분포를 추정하고, 역전파를 통해 이들의 겹침을 최소화하는 매개변수 없는 Histogram Loss를 제안한다. 이를 통해 임계값이나 여유치를 조정하지 않고도 다수의 데이터셋에서 경쟁적이거나 우수한 성능을 달성한다.

ABSTRACT

We suggest a loss for learning deep embeddings. The new loss does not introduce parameters that need to be tuned and results in very good embeddings across a range of datasets and problems. The loss is computed by estimating two distribution of similarities for positive (matching) and negative (non-matching) sample pairs, and then computing the probability of a positive pair to have a lower similarity score than a negative pair based on the estimated similarity distributions. We show that such operations can be performed in a simple and piecewise-differentiable manner using 1D histograms with soft assignment operations. This makes the proposed loss suitable for learning deep embeddings using stochastic optimization. In the experiments, the new loss performs favourably compared to recently proposed alternatives.

연구 동기 및 목표

조정 가능한 여유치나 임계값에 대한 의존성을 최소화하는 견고한 임베딩 손실을 고안한다.
양성 및 음성 유사도 분포를 추정하기 위한 2단계 히스토그램 기반 접근법을 제안한다.
히스토그램 기반 손실을 통한 역전파를 통해 임베딩의 미분 가능 최적화를 가능하게 한다.
다양한 이미지 임베딩 데이터셋에 대해 평가하고 최첨단 손실들과 비교함으로써 광범위한 적용 가능성을 보여준다.

제안 방법

배치 내 양성 및 음성 쌍의 유사도 두 분포를 선형 보간이 가능한 1D 히스토그램을 사용하여 추정한다.
추정된 분포에 대한 적분으로 임의의 음성 쌍이 임의의 양성 쌍보다 더 높은 유사도를 가질 확률을 계산한다.
히스토그램 손실 L을 기대 역확률로 정의하며, L = sum_r h^{-}_r phi^{+}_r 로 계산할 수 있는데, 여기서 phi^{+}_r 은 h^{+} 의 누적합이다.
히스토그램 구성에 대해 역전파를 수행하여 s_{ij}에 대한 기울기를 얻고 따라서 네트워크 매개변수에 대한 기울기를 얻는다.
히스토그램 빈 수를 유일한 조정 가능한 매개변수로 간주하고 데이터로부터의 민감도와 독립성을 보인다.

실험 결과

연구 질문

RQ1매개변수 없는 히스토그램 기반 손실이 다양한 데이터셋에 걸쳐 임베딩 공간에서 양성 및 음성 쌍을 효과적으로 분리할 수 있는가?
RQ2히스토그램 크기(빈 수)와 배치 크기가 임베딩 품질과 수렴에 어떤 영향을 미치는가?
RQ3표준 임베딩 벤치마크에서 Histogram Loss가 최첨단 쌍 대 손실 및 트리플렛/쿼드루플렛 손실을 능가하는가?
RQ4계층화가 가능한가 대규모 데이터셋에 대해 미분 가능성과 학습 효율성을 유지하면서?

주요 결과

Histogram Loss는 CUB-200-2011, Online Products, CUHK03, Market-1501 데이터셋에서 Binomial Deviance, LSSS, Triplet 손실과 비교해 경쟁력 있는 recall@K를 달성한다.
CUHK03 및 Market-1501에서 Histogram Loss가 사람 재식별에 대해 경쟁 손실을 능가한다.
CUB-200-2011 및 Online Products에서 Histogram Loss는(적절한 C 매개변수와 함께) 최상의 Binomial Deviance 결과에 매우 근접한다.
Histogram Loss는 평가된 데이터셋에서 일관되게 LSSS 트리플렛 기반 손실을 능가했다.
더 큰 배치 크기(예: 256)가 여러 데이터셋에서 일반적으로 더 좋은 Recall@K를 보였다.
이 방법은 히스토그램 빈 수 및 표준 최적화 설정(예: ADAM)을 제외하고는 최소한의 조정만 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.