[論文レビュー] Self-Distillation of Hidden Layers for Self-Supervised Representation Learning
Bootlegは複数の隠れた教員層から自己蒸留を行い、MAEやI-JEPAより表現品質を向上させ、ダウンストリームタスクの性能を向上させる。マスクされたパッチと複数の教員層からのターゲットを用いて多段階の抽象化を促進する。
The landscape of self-supervised learning (SSL) is currently dominated by generative approaches (e.g., MAE) that reconstruct raw low-level data, and predictive approaches (e.g., I-JEPA) that predict high-level abstract embeddings. While generative methods provide strong grounding, they are computationally inefficient for high-redundancy modalities like imagery, and their training objective does not prioritize learning high-level, conceptual features. Conversely, predictive methods often suffer from training instability due to their reliance on the non-stationary targets of final-layer self-distillation. We introduce Bootleg, a method that bridges this divide by tasking the model with predicting latent representations from multiple hidden layers of a teacher network. This hierarchical objective forces the model to capture features at varying levels of abstraction simultaneously. We demonstrate that Bootleg significantly outperforms comparable baselines (+10% over I-JEPA) on classification of ImageNet-1K and iNaturalist-21, and semantic segmentation of ADE20K and Cityscapes.
研究の動機と目的
- 生成的(ピクセル再構成)と予測的(埋め込み蒸留)SSL手法のギャップを埋める動機付け。
- 教員ネットワークの隠れ層ターゲットを用いる多層自己蒸留目的を導入する。
- 早〜深の未処理表現にターゲットを基づけてSSL訓練を安定化させる。
- 画像分類とセマンティックセグメンテーションタスクでのダウンストリーム性能の改善を示す。
- ターゲット層の選択とマスキング戦略が安定性と性能にどう影響するかを探る。
提案手法
- I-JEPAフレームワークに従い、EMA教員(Bootleg)を用いたViTベースのエンコーダ-予測子アーキテクチャを使用。
- 学習ターゲットを作るため、画像パッチのサブセットを四つの長方形領域でマスク。
- エンコーダの深さにわたるEMA教員の複数隠れ層からzスコア正規化済み埋め込みとしてターゲットを収集。
- マスクされた位置の連結潜在ターゲットを専用の予測モジュールで予測するよう学生エンコーダを訓練。
- 抽出された潜在埋め込みを複数ブロックから連結して蒸留ターゲットとし、抽象化の多様性を最大化。
実験結果
リサーチクエスチョン
- RQ1教員からの隠れ層自己蒸留は最終層ターゲットを超えるSSL表現を生み出せるか。
- RQ2複数の隠れ層をターゲットにする効果はどうか、どの層とマスキング戦略が最良の性能を生むか。
- RQ3BootlegはMAEおよびI-JEPAと比較して、同様の計算資源でダウンストリームタスク(分類・セグメンテーション)を改善するか。
- RQ4ターゲット構成の選択(どの層・いくつ・どう結合するか)が安定性と性能にどう影響するか。
主な発見
- Bootlegは比較可能なベースラインより優れている(例:ImageNet-1k分類とiNaturalist-21でI-JEPAより+10%)。
- 複数の隠れ層からのターゲット蒸留は、入力ピクセルや最終埋め込みのみを用いるより強力な表現を生み出す。
- 4つの長方形マスクと分散した多層ターゲットを用いるマスキング戦略は、MAEの一様ランダムマスクや単一ターゲットのI-JEPAバリアントより安定した訓練と高い性能を提供する。
- 深さ全体の毎四ブロックをターゲットにし、複数の隠れ層表現を結合することは、一貫して凍結プローブ精度とセグメンテーション指標を改善する。
- BootlegはIN-1k、iNat21、ADE20K、Cityscapesで線形、CLS、X-Blkプローブの性能を改善し、特に小型モデルサイズで顕著な利益をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。