Skip to main content
QUICK REVIEW

[论文解读] Few-Shot Learning via Learning the Representation, Provably

Simon S. Du, Wei Hu|arXiv (Cornell University)|Feb 21, 2020
Domain Adaptation and Few-Shot Learning参考文献 33被引用 56
一句话总结

本论文通过表征学习分析小样本学习,推导出可证明的样本复杂度保证,利用来自多个源任务的数据汇聚来提升目标任务学习,并给出低维和高维表征(包括非线性和神经网络情形)的明确速率。

ABSTRACT

This paper studies few-shot learning via representation learning, where one uses $T$ source tasks with $n_1$ data per task to learn a representation in order to reduce the sample complexity of a target task for which there is only $n_2 (\ll n_1)$ data. Specifically, we focus on the setting where there exists a good \emph{common representation} between source and target, and our goal is to understand how much of a sample size reduction is possible. First, we study the setting where this common representation is low-dimensional and provide a fast rate of $O\left(\frac{\mathcal{C}\left(Φ ight)}{n_1T} + \frac{k}{n_2} ight)$; here, $Φ$ is the representation function class, $\mathcal{C}\left(Φ ight)$ is its complexity measure, and $k$ is the dimension of the representation. When specialized to linear representation functions, this rate becomes $O\left(\frac{dk}{n_1T} + \frac{k}{n_2} ight)$ where $d (\gg k)$ is the ambient input dimension, which is a substantial improvement over the rate without using representation learning, i.e. over the rate of $O\left(\frac{d}{n_2} ight)$. This result bypasses the $Ω(\frac{1}{T})$ barrier under the i.i.d. task assumption, and can capture the desired property that all $n_1T$ samples from source tasks can be \emph{pooled} together for representation learning. Next, we consider the setting where the common representation may be high-dimensional but is capacity-constrained (say in norm); here, we again demonstrate the advantage of representation learning in both high-dimensional linear regression and neural network learning. Our results demonstrate representation learning can fully utilize all $n_1T$ samples from source tasks.

研究动机与目标

  • 动机:将表征学习用于小样学习,以降低目标任务的样本复杂度。
  • 描述源任务与目标任务之间共同表征如何实现更好的泛化界限进行表征。
  • 给出理论速率,显示何时以及如何充分利用源数据来帮助目标任务。
  • 将结果从线性扩展到非线性和高维设定,包括神经网络。

提出的方法

  • 给出一个联合优化,使用源任务数据学习共享表征和任务特定预测器:对 phi ∈ Φ 和 W 的极小化 1/(2n1T) ∑_t ||y_t - X_t φ(X_t) w_t||^2。
  • 证明所学习的表征 hat{phi} 随后与目标任务线性预测器一起使用:对 w 的极小化 1/(2n2) ||y_{T+1} - hat{phi}(X_{T+1}) w||^2。
  • 推导目标任务的风险界,将源平均表征误差与目标特定估计误差分离:在低维线性设定下,ER <= ~O(C(Phi)/(n1 T) + k/n2),并给出非线性 Phi 的推广形式。
  • 在高维线性表征下,采用协方差支配和多样性假设,推导涉及 Sigma 的谱量和迹项的速率。
  • 给出神经网络可行的扩展,在类似条件下对两层 ReLU 网络也展示相同的汇聚收益。

实验结果

研究问题

  • RQ1当源任务与目标任务存在共同表征时,小样本学习中的样本复杂度可以有多大的降低?
  • RQ2在利用源任务数据时,表征的规模和结构(低维 vs 高维、线性 vs 非线性、神经网络)如何影响目标任务的风险?
  • RQ3在何种分布与多样性假设下,所有 n1T 个源样本可以汇聚以提升目标表现?
  • RQ4理论增益是否可以从线性表征扩展到非线性和过参数化的神经网络?

主要发现

  • 对于低维线性表征,目标超额风险的增长为 ~O( dk/(n1 T) + k/n2 ),显著优于原生的 d/n2 速率。
  • 推广到非线性表征时,界成为 ~O( C(Phi)/(n1 T) + k/n2 ),仍然能够汇聚所有源数据。
  • 在具有协方差结构的高维线性表征下,速率提升为 ~O( (R̄ sqrt{Tr(Sigma)})/sqrt{n1 T} + (R̄ sqrt{||Sigma||_2})/sqrt{n2} ).
  • 结果显示,在同分布任务假设下,可以充分利用源任务的所有 n1T 样本来学习表征,消除了 1/sqrt(T) 的障碍。
  • 该框架扩展到带 ReLU 激活的两层神经网络,保持表征学习带来的同样定性的增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。