QUICK REVIEW

[논문 리뷰] Delta-encoder: an effective sample synthesis method for few-shot object recognition

Eli Schwartz, Leonid Karlinsky|arXiv (Cornell University)|2018. 06. 12.

Domain Adaptation and Few-Shot Learning참고 문헌 6인용 수 199

한 줄 요약

Δ-encoder는 같은 클래스 샘플 간의 비선형 변형을 학습하여 보이지 않는 클래스의 합리적인 새로운 샘플을 합성하고, 외부 데이터 없이도 위상적 적은 샷 및 원 샷 객체 인식을 가능하게 한다. 표준 벤치마크에서 원-샷에서 최첨단 성능과 다소 경쟁력 있는 소샷 성능을 달성한다.

ABSTRACT

Learning to classify new categories based on just one or a few examples is a long-standing challenge in modern computer vision. In this work, we proposes a simple yet effective method for few-shot (and one-shot) object recognition. Our approach is based on a modified auto-encoder, denoted Delta-encoder, that learns to synthesize new samples for an unseen category just by seeing few examples from it. The synthesized samples are then used to train a classifier. The proposed approach learns to both extract transferable intra-class deformations, or "deltas", between same-class pairs of training examples, and to apply those deltas to the few provided examples of a novel class (unseen during training) in order to efficiently synthesize samples from that new class. The proposed method improves over the state-of-the-art in one-shot object-recognition and compares favorably in the few-shot case. Upon acceptance code will be made available.

연구 동기 및 목표

컴퓨터 비전에서 매우 적은 예시에서 새로운 카테고리를 인식하는 문제에 대한 동기 부여와 도전 과제 제시
Seen 클래스에서 학습된 intra-class 변형(deltas)을 전이해 unseen 클래스용 새로운 샘플을 합성하는 메커니즘 제안
Delta-encoder를 훈련시켜 같은 클래스 페어 간의 변형을 인코딩하고 novel 클래스의 seed 예시로 이를 디코딩해 학습 샘플을 생성
다양한 데이터셋에서 표준 소샷 벤치마크에 대해 접근법 평가 및 다수의 데이터셋에서 SOTA 방법과 비교

제안 방법

엔코더가 같은 클래스에서 쌍 (X, Y) 사이의 압축된 delta 표현 Z를 출력하는 오토인코더 변형 사용
Y와 Z로부터 X를 재구성하도록 학습하여 Y 의존성을 강제해 의미 있는 샘플 합성을 가능하게 함
샘플링 도중 같은 클래스의 여러 쌍에서 Z를 수집한 뒤, D(Z, Y^u)를 단일 seed Y^u에 적용해 novel 클래스의 새로운 샘플 생성
보이지 않는 각 클래스마다 1024개의 합성 샘플로 선형 분류기 학습; 각 seed에 대해 합성을 반복하여 k-shot 확장
적응적 L1 재구성 손실과 특징 공간 가중치, 16-dim Z 사용; 백본 특징은 사전 계산(VGG16/ResNet18)된 상태에서 소형 MLP 인코더/디코더로 작동

실험 결과

연구 질문

RQ1학습된 delta 표현이 seen 클래스의 변형을 전달해 매우 적은 예시만으로 unseen 클래스의 현실적 샘플 합성에 기여할 수 있는가?
RQ2Delta-encoder가 표준 벤치마크에서 원샷 및 소샷 설정에서 어떻게 수행되는가?
RQ3합성 데이터가 seed 예시의 단순 증강을 넘어 비트 단위의 중요한 정보를 제공하는가?

주요 결과

방법	1-shot (5-way) mini ImageNet	1-shot (5-way) CIFAR-100	1-shot (5-way) Caltech-256	1-shot (5-way) CUB	Avg. (1-shot)
Nearest neighbor (baseline)	59.9 / 69.7	66.7 / 79.8	73.2 / 83.6	69.8 / 82.6	-
MACO [19]	-	-	-	-	-
Meta-Learner LSTM [34]	-	-	-	-	-
Matching Nets [43]	-	-	-	-	-
MAML [10]	-	-	-	-	-
Prototypical Networks [39]	-	-	-	-	-
SRPN [30]	-	-	-	-	-
RELATION NET [41]	-	-	-	-	-
DEML+Meta-SGD ♡ [52]	-	-	-	-	-
Dual TriNet ♡ [4]	-	-	-	-	-
Δ-encoder ♡	59.9 / 69.7	66.7 / 79.8	73.2 / 83.6	69.8 / 82.6	84.3

Δ-encoder는 강력한 원샷 성능을 달성하며 여러 데이터세트에서 여러 베이스라인을 능가한다.
1샷/5샷에서 Δ-encoder는 miniImageNet, CIFAR-100, Caltech-256, CUB에서 SOTA 방법에 비해 경쟁력 있거나 우수한 정확도를 보인다.
어블레이션 연구에서 인코더의 입력으로 Y를 포함하고 비선형 delta를 학습하는 것이 선형 오프셋이나 속성 기반 방법에 비해 성능을 크게 향상시킴을 보인다.
unseen 클래스당 합성 샘플 수를 약 1,024까지 증가시키면 성능 향상이 나타나며 수렴은 의미 있는 비-사소한 데이터 증강을 시사한다.
사전 학습된 백본(ImageNet 특징)을 사용하면 결과가 더 향상되며 Δ-encoder가 여러 데이터세트에서 베이스라인 대비 주목할 만한 이득을 얻는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.