[論文レビュー] Self-Soupervision: Cooking Model Soups without Labels
Self-Soupervision はモデル・スープを自己教師付き学習へ拡張し、多様な SSL 成分を混ぜ合わせてロバストでラベルなしのスープを形成し、転移と頑健性を向上させる。SSL 損失での相互訓練やテスト分布上でも、破損した ImageNet や VTAB タスクで顕著な向上を達成する。
Model soups are strange and strangely effective combinations of parameters. They take a model (the stock), fine-tune it into multiple models (the ingredients), and then mix their parameters back into one model (the soup) to improve predictions. While all known soups require supervised learning, and optimize the same loss on labeled data, our recipes for Self-\emph{Soup}ervision generalize soups to self-supervised learning (SSL). Our Self-Souping lets us flavor ingredients on new data sources, e.g. from unlabeled data from a task for transfer or from a shift for robustness. We show that Self-Souping on corrupted test data, then fine-tuning back on uncorrupted train data, boosts robustness by +3.5\% (ImageNet-C) and +7\% (LAION-C). Self-\emph{Soup}ervision also unlocks countless SSL algorithms to cook the diverse ingredients needed for more robust soups. We show for the first time that ingredients can differ in their SSL hyperparameters -- and more surprisingly, in their SSL algorithms. We cook soups of MAE, MoCoV3, and MMCR ingredients that are more accurate than any one single SSL ingredient.
研究の動機と目的
- supervised トレーニングを超えてモデル・スープを拡張し、ラベルなしデータと SSL を活用して頑健性と転移を高める動機づけ。
- Self-Soup ervision をフレームワークとして導入し、共通ストックから初期化された成分を多様な SSL 損失とデータセットで相互訓練し、タスク微調整前に組み合わせ可能なスープを作成。
- 自己教師付き成分を混合することで、従来の supervised スープを上回り、分布シフト下での性能を改善できることを示す。
- 破損/テスト分布上の相互訓練が頑健性の向上を生み、自己教師付き成分は SSL アルゴリズムやハイパーパラメータによって異なる可能性を示す。
提案手法
- Self-Soup ervision を、成分が共通ストックから初期化された独立した自己教師付きトレーニング実行から成る一般的なフレームワークとして定義。
- 多様な SSL 損失(MAE、MoCoV3、MMCR)を異なるデータ上で相互訓練し、その後 supervised 微調整とパラメータ混合を行いスープを作成。
- 混合戦略を探究:Uniform Mix、Greedy Search、Self-Seasoning(教師なし、kNN ベース)を用いて成分を組み合わせる。
- ImageNet および VTAB で、破損(ImageNet-C、LAION-C)および転移タスクを評価。テスト分布のシフトを含む。
- 自己教師付き成分間で共有ストック下の Linear Mode Connectivity(LMC)が成り立つことを示す。
- ラベルなしの完全な自己教師付きバリアント(Self-Seasoning)を提供し、SSL 成分をラベルなしで混合可能。
実験結果
リサーチクエスチョン
- RQ1異なる自己教師付き損失で訓練された成分を意味のある混合が可能で、改善されたスープを形成できるか。
- RQ2自己教師付き成分は supervised スープと同等かそれ以上の頑健性と転移の利点を可能にするか。
- RQ3破損またはシフトした分布での相互訓練が分布シフトへの頑健性を高めるか。
- RQ4完全に自己教師付きの混合で下流タスクに競争力のある性能を得られるか。
- RQ5異なる SSL アルゴリズム(MAE、MoCoV3、MMCR)とそのハイパーパラメータは最終的なスープにどのような影響を与えるか。
主な発見
- 多様な SSL 成分で Self-Souping を行うと、単一成分より性能が向上し、ImageNet-C および LAION-C で最大 +3%、ImageNet-A で +6.6% の改善を達成。
- 微調整前の破損/テスト分布での相互訓練は頑健性の向上を提供(IN-C +3.5%、LAION-C +7%)、テスト時適応後の性能も改善。
- SSL 実行が異なる成分を混合すると、いずれかの単一成分より高い精度を達成できる場合があり、自己教師付き成分にも Linear Mode Connectivity が成立することを示唆。
- Self-Souping は 21 の VTAB タスクに転移し、多様な下流タスクと破損に対して控えめだが有用な改善を示す。
- Self-Seasoning は教師なしの混合法であり、混合にラベルを用いずにいくつかのタスクでいくつかの supervised ベースラインを上回ることができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。