Skip to main content
QUICK REVIEW

[논문 리뷰] Few-Shot Learning via Learning the Representation, Provably

Simon S. Du, Wei Hu|arXiv (Cornell University)|2020. 02. 21.
Domain Adaptation and Few-Shot Learning참고 문헌 33인용 수 56
한 줄 요약

이 논문은 표현 학습을 통해 소샷 학습을 분석하고, 다중 원천 작업으로부터 데이터를 모아 목표 작업 학습을 개선하는 명시적 속도(샘플 복잡도) 보장을 도출하며, 비선형 및 신경망 사례를 포함한 저차원 및 고차원 표현에 대한 구체적인 속도를 제시합니다.

ABSTRACT

This paper studies few-shot learning via representation learning, where one uses $T$ source tasks with $n_1$ data per task to learn a representation in order to reduce the sample complexity of a target task for which there is only $n_2 (\ll n_1)$ data. Specifically, we focus on the setting where there exists a good \emph{common representation} between source and target, and our goal is to understand how much of a sample size reduction is possible. First, we study the setting where this common representation is low-dimensional and provide a fast rate of $O\left(\frac{\mathcal{C}\left(Φ ight)}{n_1T} + \frac{k}{n_2} ight)$; here, $Φ$ is the representation function class, $\mathcal{C}\left(Φ ight)$ is its complexity measure, and $k$ is the dimension of the representation. When specialized to linear representation functions, this rate becomes $O\left(\frac{dk}{n_1T} + \frac{k}{n_2} ight)$ where $d (\gg k)$ is the ambient input dimension, which is a substantial improvement over the rate without using representation learning, i.e. over the rate of $O\left(\frac{d}{n_2} ight)$. This result bypasses the $Ω(\frac{1}{T})$ barrier under the i.i.d. task assumption, and can capture the desired property that all $n_1T$ samples from source tasks can be \emph{pooled} together for representation learning. Next, we consider the setting where the common representation may be high-dimensional but is capacity-constrained (say in norm); here, we again demonstrate the advantage of representation learning in both high-dimensional linear regression and neural network learning. Our results demonstrate representation learning can fully utilize all $n_1T$ samples from source tasks.

연구 동기 및 목표

  • 소샷 학습에서 목표 작업 샘플 복잡도를 줄이기 위해 표현 학습을 동기화한다.
  • 소스와 목표 간의 일관된 표현이 일반화 경계를 개선하는 방식을 특징짓는다.
  • 소스 데이터를 활용해 목표 작업을 완전히 돕는지에 대한 이론적 속도를 제시한다.
  • 선형에서 비선형 및 고차원 설정(신경망 포함)으로 결과를 확장한다.

제안 방법

  • 소스-작업 데이터 사용으로 공유 표현과 작업 특화 예측기를 함께 학습하는 결합 최적화를 형식화한다: min over phi in Phi and W of (1/2n1T) sum_t ||y_t - X_t phi(X_t) w_t||^2.
  • 학습된 표현 hat{phi}가 목표 작업의 선형 예측기와 함께 사용된다고 보인다: min_w 1/(2n2) ||y_{T+1} - hat{phi}(X_{T+1}) w||^2.
  • 목표 작업에 대한 위험 경향을 소스-평균 표현 오차와 목표-특정 추정 오차로 구분하여 도출한다: 저차원 선형 설정에서 ER <= ~O(C(Phi)/(n1 T) + k/n2), 비선형 Phi의 일반화 형태.
  • 공분산 지배성 및 다양성 가정이 있는 고차원 선형 표현으로 확장하여 Sigma의 특이량 및 추적항의 스펙트럴 양을 포함하는 속도를 도출한다.
  • 동일한 풀링 이점을 보이는 두 계층 ReLU 네트워크에 대한 신경망 확장으로, 비슷한 조건 하에서 표현 학습의 이점을 유지한다.

실험 결과

연구 질문

  • RQ1소스와 목표 작업 간에 공통 표현이 존재할 때 소샷 학습에서 가능한 샘플 복잡도 감소는 무엇인가?
  • RQ2표현의 크기와 구조(저차원 vs 고차원, 선형 vs 비선형, 신경망)가 소스-작업 데이터를 활용할 때 목표 작업 위험에 어떤 영향을 미치는가?
  • RQ3모든 n1T 소스 샘플을 모아 목표 성능을 개선할 수 있는 분포 가정과 다양성 가정은 무엇인가?
  • RQ4이론적 이득이 선형 표현에서 비선형 및 과도하게 매개된 신경망으로 확장되는가?

주요 결과

  • 저차원 선형 표현에서 목표 초과 위험은 ~O( dk/(n1 T) + k/n2 )로 스케일되며, 바닐라 d/n2 속도보다 크게 개선된다.
  • 비선형 표현으로 일반화할 경우 경계가 ~O( C(Phi)/(n1 T) + k/n2 )로 바뀌며, 여전히 모든 소스 데이터를 풀링할 수 있다.
  • 공분산 구조를 갖는 고차원 선형 표현에서 속도는 ~O( (R̄ sqrt{Tr(Sigma)})/sqrt{n1 T} + (R̄ sqrt{||Sigma||_2})/sqrt{n2} )로 개선된다.
  • 소스 작업의 모든 n1T 샘플을 사용해 표현을 학습하는 것이 가능하므로 i.i.d. 작업 가정하에서 1/sqrt(T) 장벽을 우회한다.
  • ReLU 활성화가 있는 두 계층 신경망으로도 표현 학습에서 같은 양적 이득이 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.