Skip to main content
QUICK REVIEW

[논문 리뷰] Learning What and Where to Transfer

Yunhun Jang, Hankook Lee|arXiv (Cornell University)|2019. 05. 15.
Domain Adaptation and Few-Shot Learning인용 수 25
한 줄 요약

이 논문은 이질적인 소스 및 타겟 네트워크 간에 어떤 특징과 레이어를 전이할지 자동으로 식별하는 메타러닝 기반의 전이 학습 방법인 L2T-ww를 제안한다. 메타네트워크를 통해 동적 전이 가중치를 학습함으로써, 수작업으로 구성된 기준선들을 능가하며, ImageNet 미사전학습을 사용한 CUB200에서 65.05%의 정확도를 달성하여 두 번째로 우수한 기준선(58.90%)보다 유의하게 높게 나타났다.

ABSTRACT

As the application of deep learning has expanded to real-world problems with insufficient volume of training data, transfer learning recently has gained much attention as means of improving the performance in such small-data regime. However, when existing methods are applied between heterogeneous architectures and tasks, it becomes more important to manage their detailed configurations and often requires exhaustive tuning on them for the desired performance. To address the issue, we propose a novel transfer learning approach based on meta-learning that can automatically learn what knowledge to transfer from the source network to where in the target network. Given source and target networks, we propose an efficient training scheme to learn meta-networks that decide (a) which pairs of layers between the source and target networks should be matched for knowledge transfer and (b) which features and how much knowledge from each feature should be transferred. We validate our meta-transfer approach against recent transfer learning methods on various datasets and network architectures, on which our automated scheme significantly outperforms the prior baselines that find "what and where to transfer" in a hand-crafted manner.

연구 동기 및 목표

  • 다른 아키텍처와 작업을 가진 이질적인 딥 뉴럴 네트워크 간의 지식 전달 문제를 해결한다.
  • 레이어 매칭 및 특징 중요도에 대한 수작업 기반 수동 설정이 필요한 기존 전이 학습 방법의 한계를 극복한다.
  • 소스 특징과 타겟 네트워크에서 최적의 전이 대상을 자동으로 선택하는 적응형 메커니즘을 개발한다.
  • 작업 및 아키텍처에 민감한 전이 규칙을 학습시켜 저자료 환경에서 효과적인 전이 학습을 가능하게 한다.
  • 수동 조정 없이 다양한 미사전학습 모델들로부터 지식을 자동으로 통합할 수 있도록 지원한다.

제안 방법

  • 각 소스 및 타겟 레이어 쌍과 그 레이어 내부의 채널에 대해 전이 가중치를 함께 학습하는 메타네트워크 $f$ 및 $g$를 도입한다.
  • 내부 루프에서 전체 학습이 아닌 전이 목적 함수만 최소화하는 효율적인 메타러닝 설계를 통해 수렴 속도를 가속화한다.
  • 1단계 적응 성능을 바탕으로 한 메타목적함수를 사용하여 메타네트워크를 훈련함으로써 빠르고 확장 가능한 최적화를 가능하게 한다.
  • 메타네트워크가 예측한 가중치를 사용해 소스 및 타겟 특징맵 간의 가중치가 부여된 특징 매칭을 적용하여 작업에 관련된 특징을 강조한다.
  • 타겟 네트워크와 메타네트워크를 엔드 투 엔드로 동시에 훈련시켜 인간 간섭 없이 최적의 전이 구성 설정을 학습할 수 있도록 한다.
  • 지식 정착과 특징 매칭 손실을 활용해 전이 과정을 안내하면서, 각 레이어와 채널의 기여도를 동적으로 조정한다.

실험 결과

연구 질문

  • RQ1메타러닝 프레임워크는 주어진 타겟 작업에 대해 가장 관련성이 높은 소스 네트워크의 특징과 레이어를 자동으로 식별할 수 있는가?
  • RQ2자동으로 동적으로 전이 가중치를 설정하는 방식이, 이질적 전이 학습에서 고정된 수작업 기반의 레이어 및 채널 매칭 방식보다 어떻게 성능을 높이는가?
  • RQ3기존의 피니튜닝이 실패하는 저자료 환경에서 제안된 방법이 성능 향상에 얼마나 기여하는가?
  • RQ4수동 설정 없이도 다양한 이질적 소스 모델들로부터 지식을 효과적으로 통합할 수 있는가?
  • RQ5학습된 전이 메커니즘이 사전 지식 기반 특징 활성화를 향상시키는가? 이는 시각화된 사전 지식 맵을 통해 확인된다.

주요 결과

  • ImageNet 미사전학습을 사용한 CUB200 데이터셋에서 L2T-ww는 65.05%의 정확도를 달성하여 두 번째로 뛰어난 기준선(LwF+AT)의 58.90%보다 6.15%포인트 높게 나타났다.
  • 클래스당 50개의 샘플만 있는 조건에서 L2T-ww는 64.91%의 정확도를 기록했으며, 클래스당 250개 샘플을 사용한 LwF의 53.76%보다 11%포인트 이상 높았다.
  • 모든 저자료 설정($N \in \{50,100,250,500,1000\}$)에서 성능 향상이 뚜렷하게 나타나 소수의 샘플 학습에서의 강건성을 입증했다.
  • 다중 소스 전이 환경에서는 이질적 소스(예: TinyImageNet + CIFAR-10)를 결합할 때에도 L2T-ww가 기준선을 일관되게 능가하여 효과적인 지식 통합 능력을 입증했다.
  • 사전 지식 맵 시각화 결과, L2T-ww는 배경 잡음은 억제하면서도 작업에 관련된 특징(예: 새, 개 등)을 강조함으로써 개선된 특징 선택성(특징 집중도)을 보였다.
  • 제안된 1단계 적응 메타러닝 설계로 내부 루프 계산 시간이 감소하여 타겟 모델과 메타네트워크의 효율적인 공동 훈련이 가능해졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.