[論文レビュー] Selfie: Self-supervised Pretraining for Image Embedding
Selfie はマスクパッチ予測タスクを用いて同じ画像からの撹乱パッチを利用することで画像エンコーダを事前訓練し、下流の精度と訓練安定性を改善する。特にラベル付きデータが限られている場合に効果を発揮する。
We introduce a pretraining technique called Selfie, which stands for SELFie supervised Image Embedding. Selfie generalizes the concept of masked language modeling of BERT (Devlin et al., 2019) to continuous data, such as images, by making use of the Contrastive Predictive Coding loss (Oord et al., 2018). Given masked-out patches in an input image, our method learns to select the correct patch, among other "distractor" patches sampled from the same image, to fill in the masked location. This classification objective sidesteps the need for predicting exact pixel values of the target patches. The pretraining architecture of Selfie includes a network of convolutional blocks to process patches followed by an attention pooling network to summarize the content of unmasked patches before predicting masked ones. During finetuning, we reuse the convolutional weights found by pretraining. We evaluate Selfie on three benchmarks (CIFAR-10, ImageNet 32 x 32, and ImageNet 224 x 224) with varying amounts of labeled data, from 5% to 100% of the training sets. Our pretraining method provides consistent improvements to ResNet-50 across all settings compared to the standard supervised training of the same network. Notably, on ImageNet 224 x 224 with 60 examples per class (5%), our method improves the mean accuracy of ResNet-50 from 35.6% to 46.7%, an improvement of 11.1 points in absolute accuracy. Our pretraining method also improves ResNet-50 training stability, especially on low data regime, by significantly lowering the standard deviation of test accuracies across different runs.
研究の動機と目的
- 未ラベルデータを活用して画像モデルのラベル付きデータ要件を削減する動機づけ。
- 連続的な画像データへマスク済み言語モデルの概念を拡張する。
- パッチベースのエンコーダ–デコーダと対比分類を用いてマスク領域を埋める。
- ファインチューニング時に部分的なネットワークを再利用して効率的な事前訓練を可能にする。
- 低ラベル条件下で CIFAR-10、ImageNet-32、ImageNet-224 における利得を示す。
提案手法
- パッチ処理ネットワーク P(ResNet-50 の最初の3ブロック)で画像パッチをエンコード。
- アテンション・プーリングネットワーク A(Transformer ベース)でパッチ表現をプール。
- マスクされたパッチの一部をデコーダに割り当て、同じ画像からの撹乱パッチの中から正しいパッチを識別させるためにクロスエントロピーロスを用いる。
- エンコーダとデコーダを jointly train; ファインチューニング時には事前訓練済み P を再利用し、全画像を用いた ResNet-50 でエンドツーエンドのファインチューニングを適用。
- パッチの位置埋め込みを使用(画像サイズ依存)し、計算を削減する部分的パラメータ共有。
- 事前訓練中、デコーダは複数の正しいパッチを同時に予測し、エンコーダ計算を再利用。
実験結果
リサーチクエスチョン
- RQ1自己教師付きのパッチレベルのマスキングと撹乱パッチを用いた事前訓練は下流タスクの画像表現を改善するか?
- RQ2Selfie は異なるラベルデータ規模で完全教師ありのベースラインと比較してどう機能するか?
- RQ3事前訓練が訓練の安定性と実行間のばらつきに与える影響は?
- RQ4注意機構プーリングとハイブリッド畳み込み-アテンションアーキテクチャがファインチューニングに与える影響は?
- RQ5ラベルデータに対する無ラベルデータの豊富さは Selfie の利得にどう影響するか?
主な発見
| Dataset | Labeled Data Percentage | Supervised | Selfie Pretrained | Δ (Selfie - Supervised) |
|---|---|---|---|---|
| CIFAR-10 | 5% | 75.9 ± 0.7 | 75.9 ± 0.4 | 0.0 |
| CIFAR-10 | 8% | 79.3 ± 1.0 | 80.3 ± 0.3 | +1.0 |
| CIFAR-10 | 20% | 88.3 ± 0.3 | 89.1 ± 0.5 | +0.8 |
| CIFAR-10 | 100% | 95.5 ± 0.2 | 95.7 ± 0.1 | +0.2 |
| ImageNet-32×32 | 5% | 13.1 ± 0.8 | 18.3 ± 0.1 | +5.2 |
| ImageNet-32×32 | 10% | 25.9 ± 0.5 | 30.2 ± 0.5 | +4.3 |
| ImageNet-32×32 | 20% | 32.7 ± 0.4 | 33.5 ± 0.2 | +0.8 |
| ImageNet-32×32 | 100% | 55.7 ± 0.6 | 56.4 ± 0.6 | +0.7 |
| ImageNet-224×224 | 5% | 35.6 ± 0.7 | 46.7 ± 0.4 | +11.1 |
| ImageNet-224×224 | 10% | 59.6 ± 0.2 | 61.9 ± 0.2 | +2.3 |
| ImageNet-224×224 | 20% | 65.7 ± 0.2 | 67.1 ± 0.2 | +1.4 |
| ImageNet-224×224 | 100% | 76.9 ± 0.2 | 77.0 ± 0.1 | +0.1 |
- Selfie はラベルデータが減少するにつれて CIFAR-10、ImageNet-32、ImageNet-224 で一貫した精度向上を示す。
- ImageNet-224×224 の 5% ラベルデータで、精度は 35.6%(教師あり)から 46.7%(Selfie)へ、11.1 ポイントの向上。
- 事前訓練はテスト精度のばらつきを減少させ、特に低データ条件で訓練の安定性を向上させる。
- クラスあたり 60 ラベルの ImageNet-224×224 では顕著な利得(11.1 ポイント)と、ラベルデータが増えると利得は小さくなる。
- Selfie は低データシナリオで ResNet-50 よりも上回る場合があり、ハイブリッドの ResNet-36 + アテンション プーリングは特定の条件下で最高を狙える。
- Selfie は ImageNet における従来の未監視事前学習結果を上回り、表現学習における無ラベルデータの有効活用を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。