QUICK REVIEW

[논문 리뷰] Few-Shot Learning via Learning the Representation, Provably

Simon S. Du, Wei Hu|arXiv (Cornell University)|2020. 02. 21.

Domain Adaptation and Few-Shot Learning참고 문헌 33인용 수 56

한 줄 요약

이 논문은 표현 학습을 통해 소샷 학습을 분석하고, 다중 원천 작업으로부터 데이터를 모아 목표 작업 학습을 개선하는 명시적 속도(샘플 복잡도) 보장을 도출하며, 비선형 및 신경망 사례를 포함한 저차원 및 고차원 표현에 대한 구체적인 속도를 제시합니다.

ABSTRACT

This paper studies few-shot learning via representation learning, where one uses $T$ source tasks with $n_1$ data per task to learn a representation in order to reduce the sample complexity of a target task for which there is only $n_2 (\ll n_1)$ data. Specifically, we focus on the setting where there exists a good \emph{common representation} between source and target, and our goal is to understand how much of a sample size reduction is possible. First, we study the setting where this common representation is low-dimensional and provide a fast rate of $O\left(\frac{\mathcal{C}\left(Φ ight)}{n_1T} + \frac{k}{n_2} ight)$; here, $Φ$ is the representation function class, $\mathcal{C}\left(Φ ight)$ is its complexity measure, and $k$ is the dimension of the representation. When specialized to linear representation functions, this rate becomes $O\left(\frac{dk}{n_1T} + \frac{k}{n_2} ight)$ where $d (\gg k)$ is the ambient input dimension, which is a substantial improvement over the rate without using representation learning, i.e. over the rate of $O\left(\frac{d}{n_2} ight)$. This result bypasses the $Ω(\frac{1}{T})$ barrier under the i.i.d. task assumption, and can capture the desired property that all $n_1T$ samples from source tasks can be \emph{pooled} together for representation learning. Next, we consider the setting where the common representation may be high-dimensional but is capacity-constrained (say in norm); here, we again demonstrate the advantage of representation learning in both high-dimensional linear regression and neural network learning. Our results demonstrate representation learning can fully utilize all $n_1T$ samples from source tasks.

연구 동기 및 목표

소샷 학습에서 목표 작업 샘플 복잡도를 줄이기 위해 표현 학습을 동기화한다.
소스와 목표 간의 일관된 표현이 일반화 경계를 개선하는 방식을 특징짓는다.
소스 데이터를 활용해 목표 작업을 완전히 돕는지에 대한 이론적 속도를 제시한다.
선형에서 비선형 및 고차원 설정(신경망 포함)으로 결과를 확장한다.

제안 방법

소스-작업 데이터 사용으로 공유 표현과 작업 특화 예측기를 함께 학습하는 결합 최적화를 형식화한다: min over phi in Phi and W of (1/2n1T) sum_t ||y_t - X_t phi(X_t) w_t||^2.
학습된 표현 hat{phi}가 목표 작업의 선형 예측기와 함께 사용된다고 보인다: min_w 1/(2n2) ||y_{T+1} - hat{phi}(X_{T+1}) w||^2.
목표 작업에 대한 위험 경향을 소스-평균 표현 오차와 목표-특정 추정 오차로 구분하여 도출한다: 저차원 선형 설정에서 ER <= ~O(C(Phi)/(n1 T) + k/n2), 비선형 Phi의 일반화 형태.
공분산 지배성 및 다양성 가정이 있는 고차원 선형 표현으로 확장하여 Sigma의 특이량 및 추적항의 스펙트럴 양을 포함하는 속도를 도출한다.
동일한 풀링 이점을 보이는 두 계층 ReLU 네트워크에 대한 신경망 확장으로, 비슷한 조건 하에서 표현 학습의 이점을 유지한다.

실험 결과

연구 질문

RQ1소스와 목표 작업 간에 공통 표현이 존재할 때 소샷 학습에서 가능한 샘플 복잡도 감소는 무엇인가?
RQ2표현의 크기와 구조(저차원 vs 고차원, 선형 vs 비선형, 신경망)가 소스-작업 데이터를 활용할 때 목표 작업 위험에 어떤 영향을 미치는가?
RQ3모든 n1T 소스 샘플을 모아 목표 성능을 개선할 수 있는 분포 가정과 다양성 가정은 무엇인가?
RQ4이론적 이득이 선형 표현에서 비선형 및 과도하게 매개된 신경망으로 확장되는가?

주요 결과

저차원 선형 표현에서 목표 초과 위험은 ~O( dk/(n1 T) + k/n2 )로 스케일되며, 바닐라 d/n2 속도보다 크게 개선된다.
비선형 표현으로 일반화할 경우 경계가 ~O( C(Phi)/(n1 T) + k/n2 )로 바뀌며, 여전히 모든 소스 데이터를 풀링할 수 있다.
공분산 구조를 갖는 고차원 선형 표현에서 속도는 ~O( (R̄ sqrt{Tr(Sigma)})/sqrt{n1 T} + (R̄ sqrt{||Sigma||_2})/sqrt{n2} )로 개선된다.
소스 작업의 모든 n1T 샘플을 사용해 표현을 학습하는 것이 가능하므로 i.i.d. 작업 가정하에서 1/sqrt(T) 장벽을 우회한다.
ReLU 활성화가 있는 두 계층 신경망으로도 표현 학습에서 같은 양적 이득이 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.