[論文レビュー] The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models
この論文は、事前学習済みのコンピュータビジョンモデル(監督ありおよび自己監督あり)内に、性能低下なしで多様なダウンストリームタスクへ転移できるマッチングサブネットワークが存在するかを検証します。分類、検出、セグメンテーションの分野における顕著なスパース性を持つ普遍的な転移可能チケットを示します。
The computer vision world has been re-gaining enthusiasm in various pre-trained models, including both classical ImageNet supervised pre-training and recently emerged self-supervised pre-training such as simCLR and MoCo. Pre-trained weights often boost a wide range of downstream tasks including classification, detection, and segmentation. Latest studies suggest that pre-training benefits from gigantic model capacity. We are hereby curious and ask: after pre-training, does a pre-trained model indeed have to stay large for its downstream transferability? In this paper, we examine supervised and self-supervised pre-trained models through the lens of the lottery ticket hypothesis (LTH). LTH identifies highly sparse matching subnetworks that can be trained in isolation from (nearly) scratch yet still reach the full models' performance. We extend the scope of LTH and question whether matching subnetworks still exist in pre-trained computer vision models, that enjoy the same downstream transfer performance. Our extensive experiments convey an overall positive message: from all pre-trained weights obtained by ImageNet classification, simCLR, and MoCo, we are consistently able to locate such matching subnetworks at 59.04% to 96.48% sparsity that transfer universally to multiple downstream tasks, whose performance see no degradation compared to using full pre-trained weights. Further analyses reveal that subnetworks found from different pre-training tend to yield diverse mask structures and perturbation sensitivities. We conclude that the core LTH observations remain generally relevant in the pre-training paradigm of computer vision, but more delicate discussions are needed in some cases. Codes and pre-trained models will be made available at: https://github.com/VITA-Group/CV_LTH_Pre-training.
研究の動機と目的
- 事前学習済みCVモデルに、ダウンストリーム転移性能を維持するマッチングサブネットワークが存在するかを評価する。
- 多様なダウンストリームタスク(分類、検出、セグメンテーション)にわたって転移可能な普遍的サブネットワークが存在するかを判断する。
- 教師あり事前学習と自己教師あり事前学習から得られたサブネットワークを、転移性と構造感度の観点で比較する。
提案手法
- 事前学習済みの重みをサブネットワークの初期化として扱う。
- 逐次的大きさプルーニング(IMP)を適用してマッチングサブネットワークを特定する。
- 同じ訓練条件下で転送性能が完全な事前学習モデルと同等以上であるサブネットワークをマッチングと定義する。
- 分類、検出、セグメンテーションなど複数のダウンストリームタスクとデータセットにわたるサブネットワークの転移可能性を評価する。
- ImageNet、simCLR、MoCoといった事前学習タイプ間のマスク多様性と摂動感度を分析する。
- より大きな事前学習モデルと温度設定が転移性に及ぼす影響を探る。
実験結果
リサーチクエスチョン
- RQ1事前学習タスクで見つかった Winning tickets は、ダウンストリームタスクの Winning tickets としても機能するか?
- RQ2異なる事前学習スキームから初期化した場合、異なるダウンストリームタスクにまたがって普遍的で転移可能なサブネットワークは存在するか?
- RQ3教師ありと自己教師ありの事前学習からのサブネットワークは、転移性とマスク構造の観点でどう比較されるか?
主な発見
- Winning tickets exist with 67.23%, 59.04%, and 95.60% sparsity for supervised ImageNet, simCLR, and MoCo pre-training, respectively.
- Subnetworks from pre-training transfer universally to diverse downstream classification tasks at sparsities around 86.58%–91.41% for CIFAR-10, CIFAR-100, SVHN, and Fashion-MNIST, with VisDA2017 requiring higher capacity (around 67.23%–59.04%).
- Subnetworks transferred from pre-training can outperform subnetworks found directly on downstream tasks (e.g., 95.60%/93.13%/97.75% sparsity for detection and segmentation).
- Subnetworks from MoCo pre-training provide best transfer to detection/segmentation among pre-training types, while ImageNet and simCLR show different strengths depending on downstream task and sparsity.
- Subnetworks identified from pre-training exhibit diverse mask structures and perturbation sensitivities, with less than 6.55% mask overlap after five IMP rounds across pre-training types.
- Pruning larger pre-trained models yields better transferable subnetworks for self-supervised pre-training (simCLR) as shown by CIFAR-100 results when comparing ResNet-50 vs ResNet-152.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。