[论文解读] On the Theory of Transfer Learning: The Importance of Task Diversity
本文为通过共享表示进行迁移学习提供统计保证,提出了任务多样性的广义概念和高斯复杂度链式法则,并推导出跨多个任务的端到端迁移保证。
We provide new statistical guarantees for transfer learning via representation learning--when transfer is achieved by learning a feature representation shared across different tasks. This enables learning on new tasks using far less data than is required to learn them in isolation. Formally, we consider $t+1$ tasks parameterized by functions of the form $f_j \circ h$ in a general function class $\mathcal{F} \circ \mathcal{H}$, where each $f_j$ is a task-specific function in $\mathcal{F}$ and $h$ is the shared representation in $\mathcal{H}$. Letting $C(\cdot)$ denote the complexity measure of the function class, we show that for diverse training tasks (1) the sample complexity needed to learn the shared representation across the first $t$ training tasks scales as $C(\mathcal{H}) + t C(\mathcal{F})$, despite no explicit access to a signal from the feature representation and (2) with an accurate estimate of the representation, the sample complexity needed to learn a new task scales only with $C(\mathcal{F})$. Our results depend upon a new general notion of task diversity--applicable to models with general tasks, features, and losses--as well as a novel chain rule for Gaussian complexities. Finally, we exhibit the utility of our general framework in several models of importance in the literature.
研究动机与目标
- 在多个任务共享一个通用表示时,激励迁移学习,以便在新任务上用更少的数据进行学习。
- 提出一个两阶段ERM框架,从 t 个任务学习共享表示并迁移到新任务。
- 引入一个与具体问题无关的任务多样性概念以及高斯复杂度链式法则,用以推导泛化界。
- 提供端到端的迁移学习保证,并通过多种模型(逻辑回归、神经网络、鲁棒回归)进行示例说明。
提出的方法
- 将任务建模为 f_j ∘ h,其中共享表示 h 属于 H,任务特定映射 f_j 属于 F。
- 两阶段ERM:训练阶段通过 nt 个样本学习 h 和任务映射;测试阶段利用 m 个样本和已学习的 h 学习 f_0。
- 定义任务平均表示差异和最坏情况表示差异,以量化表示的相似性和迁移性。
- 建立高斯复杂度的链式法则,以在泛化界中解耦 F 和 H 的复杂性。
- 引入一个与具体问题无关的任务多样性定义,以在多样性和高斯复杂度的条件下界定迁移性能。
- 推导端到端迁移学习界(定理3),展示迁移风险如何随问题维度和任务多样性的变化而缩放。
实验结果
研究问题
- RQ1在训练任务中需要多少样本来学习共享表示?
- RQ2迁移表示如何影响新任务的样本效率?
- RQ3任务多样性在实现对未见任务的快速迁移中起到什么作用?
- RQ4泛化保证是否可以扩展到超越线性/二次设定的更广泛模型?
- RQ5如何利用高斯复杂度将任务特定映射的复杂性与共享表示解耦?
主要发现
- 新任务的超额风险随一个包含 C(H) 和 tC(F) 的项除以 nt,再加上一个与 C(F)/m 相关的项而缩放。
- 一种新的任务多样性概念(ν, ε)控制迁移界,在训练任务多样化时可产生更快的收敛速率。
- 高斯复杂度的新型链式法则将界分解为来自学习 H 和学习 F 的贡献。
- 端到端的迁移学习保证在 n 和 t 较大而 m 较小时,相较于孤立学习新任务,显示出更优的收敛速率。
- 应用包括多任务逻辑回归、多任务深度神经网络回归,以及单指数模型的鲁棒回归。
- 在有利设置下,迁移学习的速率优势按表示维度 r 而非环境维度 d 进行缩放(当 r << d 时)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。