Skip to main content
QUICK REVIEW

[논문 리뷰] CrossTransformers: spatially-aware few-shot transfer

Carl Doersch, Ankush Gupta|arXiv (Cornell University)|2020. 07. 22.
Domain Adaptation and Few-Shot Learning참고 문헌 100인용 수 58
한 줄 요약

본 논문은 신경 표현에서의 감독 붕괴를 밝히고, 이를 자체 지도 학습인 SimCLR 에피소드와 공간적으로 인지되는 CrossTransformer 아키텍처로 해결하여 소수-shot 전이 성능을 향상시키고, Meta-Dataset에서 최첨단 결과를 달성한다.

ABSTRACT

Given new tasks with very little data$-$such as new classes in a classification problem or a domain shift in the input$-$performance of modern vision systems degrades remarkably quickly. In this work, we illustrate how the neural network representations which underpin modern vision systems are subject to supervision collapse, whereby they lose any information that is not necessary for performing the training task, including information that may be necessary for transfer to new tasks or domains. We then propose two methods to mitigate this problem. First, we employ self-supervised learning to encourage general-purpose features that transfer better. Second, we propose a novel Transformer based neural network architecture called CrossTransformers, which can take a small number of labeled images and an unlabeled query, find coarse spatial correspondence between the query and the labeled images, and then infer class membership by computing distances between spatially-corresponding features. The result is a classifier that is more robust to task and domain shift, which we demonstrate via state-of-the-art performance on Meta-Dataset, a recent dataset for evaluating transfer from ImageNet to many other vision datasets.

연구 동기 및 목표

  • 제한된 라벨 데이터로 작업 및 도메인 변화에 대한 비전 시스템의 견고성을 촉진한다.
  • 전이 전 필요 정보를 잃는 특징의 감독 붕괴를 식별한다.
  • 일반 목적의 특징을 보존하기 위한 자체 감독 학습을 제안한다.
  • 소수-shot 분류를 위한 로컬이며 공간적으로 정렬된 비교를 수행하는 CrossTransformers를 도입한다.
  • 다양한 데이터셋에서의 전이 이득을 입증하기 위해 Meta-Dataset에서 평가한다.

제안 방법

  • 전이 가능한 임베딩을 생성하기 위해 MD-에피소드로 재구성된 SimCLR 스타일의 자체 감독을 사용한다.
  • 공간 구조를 보존하기 위해 최종 공간 풀링을 제거하고 기본으로 Prototypical Nets를 채택한다.
  • 질의와 지원 이미지 간의 주의 기반 로컬 대응을 통해 질의에 정렬된 프로토타입을 계산하는 CrossTransformers를 도입한다.
  • 질의 특징과 정렬된 로컬 프로토타입 간의 거리를 계산하여 클래스 확률을 예측한다.
  • 지원과 질의 간에 value-head를 공유하여 거리 메트릭처럼 동작하게 한다.
  • 일부 데이터셋을 강화하기 위해 전역 특징과 테스트 시 로지스틱 회귀를 선택적으로 보강한다.

실험 결과

연구 질문

  • RQ1자가 감독 학습이 감독 붕괴를 완화하고 소수-shot 시나리오에서 전이를 개선할 수 있는가?
  • RQ2CrossTransformers와 같은 공간 인지형 아키텍처가 보지 않은 클래스 및 도메인에 대한 일반화를 향상시키는가?
  • RQ3SimCLR 에피소드와 아키텍처 선택이 Meta-Dataset 성능에 어떤 영향을 미치는가?
  • RQ4추가 증강이나 테스트 시 분류기의 도입이 CrossTransformers에 미치는 영향은 무엇인가?
  • RQ5로컬 부분 기반의 대응이 미세한 구분 및 교차 도메인 인식에 어느 정도 도움을 주는가?

주요 결과

  • 자가 감독식 SimCLR 스타일의 에피소드가 소수-shot 전이를 개선하며, 특히 ImageNet과 먼 데이터셋에서 효과가 크다.
  • CrossTransformers가 Meta-Dataset에서 강력한 성능과-baselines보다 더 나은 평균 순위를 제공한다.
  • CrossTransformers를 SimCLR 에피소드와 증강과 결합하면 Meta-Dataset의 대부분 데이터셋에서 최첨단 결과를 달성한다.
  • 주의 시각화는 질의와 지원 이미지 간의 의미적으로 의미 있는, 다만 일대일은 아닌 로컬성 정렬을 보여준다.
  • 테스트 시 로지스틱 회귀가 전역 특징을 활용하면 특정 데이터셋(DTD 등)을 향상시키지만 다른 데이터셋에는 해를 끼칠 수 있어 전역 표현과 로컬 표현 간의 트레이드를 강조한다.
  • 네트워크 용량 증가와 더 높은 입력 해상도는 데이터셋에 따라 혼합된 효과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.