Skip to main content
QUICK REVIEW

[论文解读] Specialized Foundation Models Struggle to Beat Supervised Baselines

Zongzhe Xu, Ritvik Gupta|arXiv (Cornell University)|Nov 5, 2024
Grouting, Rheology, and Soil Mechanics被引用 5
一句话总结

本论文表明,在基因组学、卫星影像和时间序列领域,经过良好调优的监督模型通常可以达到甚至超过专门的 foundation models,尽管 FMs 的大规模预训练数据。

ABSTRACT

Following its success for vision and text, the "foundation model" (FM) paradigm -- pretraining large models on massive data, then fine-tuning on target tasks -- has rapidly expanded to domains in the sciences, engineering, healthcare, and beyond. Has this achieved what the original FMs accomplished, i.e. the supplanting of traditional supervised learning in their domains? To answer we look at three modalities -- genomics, satellite imaging, and time series -- with multiple recent FMs and compare them to a standard supervised learning workflow: model development, hyperparameter tuning, and training, all using only data from the target task. Across these three specialized domains, we find that it is consistently possible to train simple supervised models -- no more complicated than a lightly modified wide ResNet or UNet -- that match or even outperform the latest foundation models. Our work demonstrates that the benefits of large-scale pretraining have yet to be realized in many specialized areas, reinforces the need to compare new FMs to strong, well-tuned baselines, and introduces two new, easy-to-use, open-source, and automated workflows for doing so.

研究动机与目标

  • 评估专门的 foundation models (FMs) 在领域特定任务上是否优于传统的监督学习。
  • 将基于 FM 的迁移学习工作流与仅使用目标领域数据的数据受限型监督管线进行比较。
  • 开发自动化管线,以在多个任务和领域中公平且高效地训练强大的监督模型。
  • 展示稳健、领域感知基线以及高效、可扩展的 AutoML 方法的重要性。

提出的方法

  • 将 FM 工作流(在大领域数据上进行预训练后再进行微调)与仅使用目标任务数据的监督工作流进行比较。
  • 使用 DASH 通过调整内核大小和扩张率(架构搜索)自动调整 CNN 主干。
  • 使用 ASHA 为发现的架构配置训练计划。
  • 对于时间序列,提出一个简单的 Auto-AR 工作流,在 GPU 上调整回看、差分和 AR 组件。

实验结果

研究问题

  • RQ1当使用强大、仅含任务数据的基线进行评估时,专门的 FMs 是否在基因组学、卫星影像和时间序列任务上胜过传统监督学习?
  • RQ2自动化的监督学习管线是否能够在使用显著更少数据和参数的情况下达到或超过 FM 的性能?
  • RQ3架构调优(内核大小、扩张)和简单基线(AR)在缩小 FM 优势方面扮演的角色是什么?
  • RQ4FM 在数据规模和模型大小方面在不同领域的结果有何差异?

主要发现

  • 在基因组学中,DASHA(一个 NAS 调整的 CNN 工作流)在 NT 基准上达到最先进水平,且在没有预训练数据的情况下常常优于 FMs。
  • 在卫星影像中,DASHA 达到与顶级 FMs 相当或具备竞争力,同时使用的参数更少且无预训练。
  • 在时间序列中,Auto-AR 在七个任务上实现了有竞争力的性能,且常常优于若干开源的 FMs,并在中位改进方面超越 Auto-ARIMA。
  • 总体而言,简单的监督模型(如宽型 ResNet、UNet、AR)在跨域中常常可以与专门的 FMs 相媲美或超越。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。