[论文解读] Scalable Transfer Learning with Expert Models
本文提出了一种可扩展的迁移学习框架,利用在大规模数据集(如 JFT 和 ImageNet21k)的语义结构子集上预训练的专家模型。通过在下游任务特征上使用基于 kNN 的性能代理选择最相关的专家,该方法在 19 个多样化视觉任务上的 VTAB-1k 基准上实现了 3.6% 的平均准确率提升,同时将所有专家压缩为单个模型,实现了每项任务 500–1000× 的推理速度提升。
Transfer of pre-trained representations can improve sample efficiency and reduce computational requirements for new tasks. However, representations used for transfer are usually generic, and are not tailored to a particular distribution of downstream tasks. We explore the use of expert representations for transfer with a simple, yet effective, strategy. We train a diverse set of experts by exploiting existing label structures, and use cheap-to-compute performance proxies to select the relevant expert for each target task. This strategy scales the process of transferring to new tasks, since it does not revisit the pre-training data during transfer. Accordingly, it requires little extra compute per target task, and results in a speed-up of 2-3 orders of magnitude compared to competing approaches. Further, we provide an adapter-based architecture able to compress many experts into a single model. We evaluate our approach on two different data sources and demonstrate that it outperforms baselines on over 20 diverse vision tasks in both cases.
研究动机与目标
- 解决通用预训练模型在迁移学习中效率低下且缺乏专业化的问题。
- 实现在不重新访问源数据的前提下,对新视觉任务实现快速、可扩展的迁移。
- 通过利用语义结构化的专家,提升在多样化下游任务上的性能。
- 使用残差适配器将数百个专家压缩为单个模型,以实现实际部署。
提出的方法
- 在完整的上游数据集(如 JFT 或 ImageNet21k)上预训练一个单一基线模型。
- 在上游数据的语义子集上训练多个异构专家,以基线模型作为初始化。
- 对于每个下游任务,计算所有专家的特征,并使用 kNN 预测在目标任务上的性能,选择表现最佳的专家。
- 仅对所选专家的头部在下游数据上进行微调,避免对源数据重新训练。
- 使用残差适配器将所有专家压缩为单个模型,实现在无需加载完整专家的情况下进行推理。
- 通过基于 kNN 的代理选择实现每项任务的专家路由,将每项目标任务的计算量降至最低。
实验结果
研究问题
- RQ1在大规模数据集的语义有意义子集上训练的专家模型,是否能提升在多样化下游任务上的迁移学习性能?
- RQ2通过在表示上使用廉价的 kNN 代理选择专家,是否能带来比通用微调更好的下游性能?
- RQ3是否可以通过避免重新处理源数据,将基于专家的迁移计算成本降低至每项任务接近零?
- RQ4使用残差适配器将单个模型压缩为数百个专家,在不造成显著性能损失的情况下,压缩程度能达到多大?
主要发现
- 所提方法在使用 ResNet50 的 VTAB-1k 基准上,相较于最先进方法实现了 3.6% 的平均准确率提升。
- 与 Domain Adaptive Transfer 等竞争方法相比,该方法在每项目标任务上的推理成本降低了 500–1000×。
- 在标签层次结构子集上训练的语义专家在自然视觉任务上比随机专家高出 2.7–4.7%,证明了结构化预训练的价值。
- 基于适配器的专家性能接近完整专家模型,实现了将所有专家压缩为单个模型,且准确率损失极小。
- 该方法在 VTAB 所有任务组(自然、专业、结构化)上均优于基线模型。
- 实验表明,随机专家的性能与基线模型相当,说明性能提升源于语义结构,而非仅模型多样性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。