Skip to main content
QUICK REVIEW

[논문 리뷰] DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning

Chi Zhang, Yujun Cai|arXiv (Cornell University)|2020. 03. 15.
Domain Adaptation and Few-Shot Learning참고 문헌 85인용 수 38
한 줄 요약

논문은 지역 이미지 영역 간 differentiable Earth Mover’s Distance를 사용하여 few-shot 이미지 분류를 최적 매칭 문제로 형식화하고, 교차 참조 가중치 체계를 도입하며, k-shot 작업을 위한 구조화된 완전 연결 계층을 제시하고, 표준 벤치마크에서 최첨단 성능을 달성한다.

ABSTRACT

In this work, we develop methods for few-shot image classification from a new perspective of optimal matching between image regions. We employ the Earth Mover's Distance (EMD) as a metric to compute a structural distance between dense image representations to determine image relevance. The EMD generates the optimal matching flows between structural elements that have the minimum matching cost, which is used to calculate the image distance for classification. To generate the important weights of elements in the EMD formulation, we design a cross-reference mechanism, which can effectively alleviate the adverse impact caused by the cluttered background and large intra-class appearance variations. To implement k-shot classification, we propose to learn a structured fully connected layer that can directly classify dense image representations with the EMD. Based on the implicit function theorem, the EMD can be inserted as a layer into the network for end-to-end training. Our extensive experiments validate the effectiveness of our algorithm which outperforms state-of-the-art methods by a significant margin on five widely used few-shot classification benchmarks, namely, miniImageNet, tieredImageNet, Fewshot-CIFAR100 (FC100), Caltech-UCSD Birds-200-2011 (CUB), and CIFAR-FewShot (CIFAR-FS). We also demonstrate the effectiveness of our method on the image retrieval task in our experiments.

연구 동기 및 목표

  • 전역 임베딩이 아닌 지역 이미지 영역 간의 구조화된 매칭으로 few-shot 분류를 동기화한다.
  • 신경망에서 end-to-end 학습을 위한 differentiable EMD 레이어를 개발한다.
  • 노이즈를 줄이고 전경 관련성을 향상시키기 위해 지역을 가중치화하는 교차 참조 메커니즘을 제안한다.
  • EMD 기반 거리를 사용하여 클래스 프로토타입에 대한 쿼리 특징을 기반으로 분류하는 구조화된 완전 연결 계층을 도입한다.

제안 방법

  • FCN, 격자, 또는 무작위 패치를 통해 추출된 지역 임베딩 집합으로 이미지를 표현한다.
  • c_ij = 1 - (u_i^T v_j) / (||u_i|| ||v_j||) 이고 비용으로 사용하여 Earth Mover’s Distance를 통해 두 이미지 간의 거리를 계산한다.
  • 두 이미지의 영역 특징을 비교하는 교차 참조 메커니즘으로 노드 가중치 s_i와 d_j를 생성한다.
  • 엔드-투-엔드 학습을 위한 KKT 조건과 암시적 함수 정리에 의해 EMD 최적화를 differentiable 레이어로 임베드한다.
  • k-shot의 경우 표준 FC를 EMD 기반 클래스 프로토타입 영역 간의 거리로 분류하는 구조화된 완전 연결 계층으로 대체한다.
  • 사전 학습 단계와 episodic 메타학습의 결합, 그리고 구조화된 FC 계층의 반복적 개선을 포함하는 학습 프로토콜을 제공한다.

실험 결과

연구 질문

  • RQ1지역 이미지 영역 간의 differentiable Earth Mover’s Distance가 few-shot 분류 성능을 향상시킬 수 있는가?
  • RQ2교차 참조 메커니즘으로 영역 기여를 가중하는 것이 배경 잡음과 클래스 간 변이를 완화하는가?
  • RQ3구조화된 완전 연결 계층이 EMD 기반 거리를 사용하여 k-shot 분류를 효과적으로 수행할 수 있는가?

주요 결과

모델임베딩지표5-way10-way
ProtoNetglobalEuclidean60.37-
MatchingNetglobalcosine63.0847.09
FCglobaldot59.4144.08
FCglobalcosine55.4340.42
KNNlocalcosine62.5247.08
Prediction Fusionlocalcosine62.3847.04
DeepEMD-FCNlocalEMD65.9149.66
  • EMD를 활용한 DeepEMD-FCN이 다섯 개 벤치마크에서 1-shot 및 5-shot 태스크에서 기준 방법들을 능가한다.
  • 1-shot 결과에서 DeepEMD-FCN은 5-way에서 65.91, 10-way에서 49.66으로 ProtoNet, MatchingNet, FC 변형 등과 같은 벤치마크 대비 우수한 성능을 보인다.
  • 교차 참조 가중치를 갖는 EMD가 EMD 변형 중 최상의 성능을 낸다.
  • 이 방법은 분류 작업을 넘어 이미지 검색 성능도 향상시킨다.
  • LP 기반 EMD 레이어를 미분 가능하게 하여 엔드 투 엔드 학습을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.