Skip to main content
QUICK REVIEW

[논문 리뷰] TapNet: Neural Network Augmented with Task-Adaptive Projection for Few-Shot Learning

S.W. Yoon, Jun Seo|arXiv (Cornell University)|2019. 05. 16.
Domain Adaptation and Few-Shot Learning인용 수 78
한 줄 요약

TapNet은 표준 임베딩+클래스별 참조 프레임워크에 작업-적응 선형 프로젝션을 추가하여 에피소드 전반에 걸쳐 임베딩과 참조를 학습하고, 각 에피소드에 대해 작업 특화 프로젝션 공간을 구성하여 최첨단 저샷 분류를 달성한다.

ABSTRACT

Handling previously unseen tasks after given only a few training examples continues to be a tough challenge in machine learning. We propose TapNets, neural networks augmented with task-adaptive projection for improved few-shot learning. Here, employing a meta-learning strategy with episode-based training, a network and a set of per-class reference vectors are learned across widely varying tasks. At the same time, for every episode, features in the embedding space are linearly projected into a new space as a form of quick task-specific conditioning. The training loss is obtained based on a distance metric between the query and the reference vectors in the projection space. Excellent generalization results in this way. When tested on the Omniglot, miniImageNet and tieredImageNet datasets, we obtain state of the art classification accuracies under various few-shot scenarios.

연구 동기 및 목표

  • 적은 수의 라벨 예제로 보지 못한 작업을 인식하는 도전 과제를 동기부여하고 해결한다.
  • 작업-특정 프로젝션을 조건으로 분류를 조정하면서 공유 임베딩 네트워크와 클래스 참조를 학습하는 메타학습 프레임워크를 개발한다.
  • 임베딩된 특징을 클래스별 참조 벡터와 정렬하는 에피소드별 프로젝션 공간을 구성하여 새로운 작업에 대한 빠른 적응을 가능하게 한다.

제안 방법

  • 입력을 임베딩 공간으로 매핑하기 위해 임베딩 네트워크 f_theta를 사용한다.
  • 에피소드에 걸쳐 학습되는 per-class 참조 벡터의 집합 Phi를 유지한다.
  • 클래스 평균 임베딩을 수정된 참조와 정렬시키는 선형 널 스페이스 프로젝션을 통해 작업-의존 프로젝션 M을 계산한다.
  • 쿼리를 M(f_theta(x))와 M(phi_k) 사이의 프로젝션 공간에서 유클리드 거리를 측정해 분류한다.
  • 에피소드 학습을 통해 쿼리 샘플의 거리 기반 손실을 최소화하며 f_theta와 Phi를 에피소드 간에 업데이트한다.

실험 결과

연구 질문

  • RQ1작업-적응 프로젝션이 표준 메트릭 기반 방법을 넘어서 저샷 학습의 일반화 성능을 향상시킬 수 있는가?
  • RQ2새로운 작업에 대해 미세조정 없이 빠르게 적응하도록 per-class 참조 벡터와 공유 임베딩을 어떻게 학습시킬 수 있는가?
  • RQ3에피소드마다 작업-특정 프로젝션 공간을 구성하는 것이 고정된 임베딩 공간보다 임베딩과 클래스 참조 간 더 나은 정렬을 제공하는가?
  • RQ4프로젝션 공간 차원이 저샷 성능에 미치는 영향은 무엇인가?

주요 결과

데이터세트설정1샷5샷
Omniglot (20-way)TapNet (1-shot)98.07%99.49%
mini ImageNet (5-way)TapNet (1-shot)61.65%76.36%
tiered ImageNet (5-way)TapNet (1-shot)63.08%80.26%
  • TapNet은 20-way Omniglot에서 최첨단 결과를 달성한다 (98.07% 1-shot, 99.49% 5-shot).
  • 5-way mini-ImageNet에서 TapNet은 61.65% (1-shot)와 76.36% (5-shot)를 달성한다.
  • 5-way tiered-ImageNet에서 TapNet은 63.08% (1-shot)와 80.26% (5-shot)를 달성한다.
  • 이 방법은 작업 간 학습된 임베딩과 참조를 작업-특정 프로젝션과 결합하여 이전의 메트릭 기반 메타 학습자들보다 일반화를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.