[論文レビュー] Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks
この論文は、事前学習済みバックボーンの多様なセットを分類、検出/セグメンテーション、OOD一般化、リトリーバルの各タスクで評価し、バックボーン選択の指針を提供します。
Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones
研究の動機と目的
- 多数の公開バックボーンが複数のCVタスクと設定でどのように性能を発揮するかを評価する。
- ドメイン内・ドメイン外データを横断して最も汎化するバックボーンを特定する。
- バックボーン選択に関する実務的指針と、研究者の将来の方向性に関する実践的指針を提供する。
提案手法
- 監督あり、自己教師あり、ビジョン-言語、生成的パラダイムを含む多様な事前学習バックボーンのコレクションを組み立てる。
- 分類、検出/分割、OOD一般化、リトリーバルを、ファインチューニング、リニアプロービング、エンドツーエンド、凍結特徴といった複数のプロトコルで評価する。
- 公開チェックポイントで適度なハイパーパラメータ探索を行い、 apples-to-apples 比較を行う。
- タスクと設定間の性能相関を分析し、普遍的なバックボーンとタスク固有の強みを特定する。
- レイテンシとメモリ使用量を報告し、精度とともに効率を考慮する。
実験結果
リサーチクエスチョン
- RQ1幅広いCVタスク群で、どの事前学習バックボーンが全体として最も良い性能を示すか?
- RQ2アーキテクチャとデータ量を一定にした場合、監督、自己教師、ビジョン-言語、生成バックボーンはどう比較されるか?
- RQ3異なる下流タスク間で、性能とタスク転移性は相関するか?
- RQ4様々な制約(小型モデル、予算、特定タスクなど)下でのバックボーン選択の実践的推奨は何か?
主な発見
- 監督ありの ConvNeXt-Base と SwinV2-Base、さらには CLIP ViT-Base が、多くのタスクと設定で性能をリードすることがある。
- SSLバックボーンは、同等の事前学習データで比較した場合非常に競争力があるが、より大規模データで訓練された監督型バックボーンが多くのタスクで依然として優勢。
- ViTsはエンドツーエンド微調整でCNNより密な予測タスクに対して恩恵を受ける一方、CNNは線形プロービングで優れる。
- タスク間の性能は強く相関しており、普遍的バックボーンはドメインを横断して良く一般化できる可能性を示唆するが、リトリーバルは分類信号とより低い相関を示す。
- 生成バックボーン like MAE and Stable Diffusion のような生成バックボーンは、ほとんどの評価タスクで監督/SSLバックボーンに比べて性能が低い(Stable Diffusionとスケールに関する留意点あり)。
- 小型で効率的なバックボーン(EfficientNet-B0, RegNetX-400MF, ResNet-18)は、効率性がしばしばタスク性能とトレードオフになることを示し、検出/分割のいくつかのタスクでは古いアーキテクチャが有利になることもある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。