[論文レビュー] Specialized Foundation Models Struggle to Beat Supervised Baselines
この論文は、ゲノミクス、衛星画像、時系列データの分野では、よく調整された監督型モデルが、FM の大規模事前学習データにもかかわらず、専門的なファウンデーションモデルと同等か、それを上回ることが多いことを示している。
Following its success for vision and text, the "foundation model" (FM) paradigm -- pretraining large models on massive data, then fine-tuning on target tasks -- has rapidly expanded to domains in the sciences, engineering, healthcare, and beyond. Has this achieved what the original FMs accomplished, i.e. the supplanting of traditional supervised learning in their domains? To answer we look at three modalities -- genomics, satellite imaging, and time series -- with multiple recent FMs and compare them to a standard supervised learning workflow: model development, hyperparameter tuning, and training, all using only data from the target task. Across these three specialized domains, we find that it is consistently possible to train simple supervised models -- no more complicated than a lightly modified wide ResNet or UNet -- that match or even outperform the latest foundation models. Our work demonstrates that the benefits of large-scale pretraining have yet to be realized in many specialized areas, reinforces the need to compare new FMs to strong, well-tuned baselines, and introduces two new, easy-to-use, open-source, and automated workflows for doing so.
研究の動機と目的
- 専門的ファウンデーションモデル(FMs)が、ドメイン特化タスクにおいて従来の監督学習を上回るかを評価する。
- FMベースの転移学習ワークフローを、ターゲットドメインデータのみを用いたデータ・タスク制限された監督型パイプラインと比較する。
- 複数のタスクとドメインにわたって、公平かつ効率的に強力な監督モデルを訓練する自動化パイプラインを開発する。
- 堅牢でドメイン対応のベースラインと、効率的でスケーラブルなAutoML手法の重要性を示す。
提案手法
- FMワークフロー(大規模ドメインデータでの事前学習とファインチューニング)を、ターゲットタスクデータのみを使用する監督ワークフローと比較する。
- DASHを用いて、カーネルサイズと膨張率を調整することでCNNバックボーンを自動適応させる(アーキテクチャ探索)。
- 発見されたアーキテクチャの訓練スケジュールを設定するためにASHAを使用する。
- 時系列データについて、lookback、差分化、AR成分をGPU上で調整する、単純なAuto-ARワークフローを導入する。
実験結果
リサーチクエスチョン
- RQ1強力なタスク単独のベースラインと比較して、専門的なFMsはゲノミクス、衛星画像、時系列タスクで従来の監督学習を上回るか?
- RQ2自動化された監督学習パイプラインは、FMの性能と同等かそれを上回りつつ、はるかに少ないデータとパラメータで達成できるか?
- RQ3アーキテクチャ調整(カーネルサイズ、膨張)と単純なベースライン(AR)がFMの優位を縮小するうえで果たす役割は何か?
- RQ4データ規模とモデルサイズの観点から、FMの結果はドメイン間でどのように変動するか?
主な発見
- ゲノミクスでは、DASHA(NAS調整のCNNワークフロー)はNTベンチマークで最先端を達成し、事前学習データなしでFMを上回ることが多い。
- 衛星画像では、DASHAは最上位FMと同等、または競合しており、はるかに少ないパラメータと事前学習なしで。
- 時系列では、Auto-ARは7タスクで競争力のある性能を示し、多くのオープンソースFMを上回ることが多く、中央値の改善ではAuto-ARIMAを上回る。
- 全体として、単純な監督モデル(例:wide ResNet、UNet、AR)は、領域を問わず専門的なFMと肩を並べる、あるいは勝つことが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。