QUICK REVIEW

[論文レビュー] Unsupervised Learning of Visual Features by Contrasting Cluster Assignments

Mathilde Caron, Ishan Misra|arXiv (Cornell University)|Jun 17, 2020

Image Enhancement Techniques参考文献 61被引用数 1,908

ひとこと要約

本論文は SwAV を紹介する。オンラインクラスタリングベースの自己教師あり法で、同一画像の複数ビューに渡ってクラスタコードを予測。大規模メモリバンクやモメンタムエンコーダなしで強力な ImageNet 結果と転移性能を達成。さらに、効率的にビュー数を増やすためのマルチクロップ拡張を導入。

ABSTRACT

Unsupervised image representations have significantly reduced the gap with supervised pretraining, notably with the recent achievements of contrastive learning methods. These contrastive methods typically work online and rely on a large number of explicit pairwise feature comparisons, which is computationally challenging. In this paper, we propose an online algorithm, SwAV, that takes advantage of contrastive methods without requiring to compute pairwise comparisons. Specifically, our method simultaneously clusters the data while enforcing consistency between cluster assignments produced for different augmentations (or views) of the same image, instead of comparing features directly as in contrastive learning. Simply put, we use a swapped prediction mechanism where we predict the cluster assignment of a view from the representation of another view. Our method can be trained with large and small batches and can scale to unlimited amounts of data. Compared to previous contrastive methods, our method is more memory efficient since it does not require a large memory bank or a special momentum network. In addition, we also propose a new data augmentation strategy, multi-crop, that uses a mix of views with different resolutions in place of two full-resolution views, without increasing the memory or compute requirements much. We validate our findings by achieving 75.3% top-1 accuracy on ImageNet with ResNet-50, as well as surpassing supervised pretraining on all the considered transfer tasks.

研究の動機と目的

ラベルなしで視覚表現を学習する、オンラインでスケーラブルな自己教師あり法を開発する。
同一ビュー間のクラスタ割り当てを対比することにより、特徴の対比較の必要を排除する。
追加コストなしにビュー数を増やすマルチクロップ戦略によるデータ拡張を改善。
下流の視覚タスクへの強力な転移と、バッチサイズ制約への健全性を示す。

提案手法

画像特徴を K つのプロトタイプにマッピングしてオンラインクラスタ割り当てを計算し、同一画像の二つの増強ビュー間でスワップ予測を課す。
ビュー間でコードをスワップする結合損失を最適化：L(z_t, q_s) + L(z_s, q_t) を、温度 tau を用いたプロトタイプ類似度のソフトマックスで表現。
オンライン Sinkhorn-Knopp 最適化を用いて小分割の制約の下で Q を解き、プロトタイプ間の等分布を保証。
特徴を単位球上で表現し、エンコーダ f_theta と共にプロトタイプ C を共同学習する。
マルチクロップ拡張を導入し、V の低解像度クロップを含む複数ビューを生成する一方、コードは高解像度クロップに対してのみ計算する。
オンライン方式で小分けバッチのコードと小さな特徴キューを用い、バッチサイズが制限される場合にも大規模メモリバンクやモメンタムエンコーダを回避する。

実験結果

リサーチクエスチョン

RQ1オンラインクラスタリングとスワップ割り当ては、自己教師あり視覚表現学習のための対比法と同等かそれ以上を達成できるか？
RQ2マルチクロップ拡張戦略は、メモリや計算リソースを増やさずに性能を向上させるか？
RQ3オンラインプロトタイプベースのコードは、 supervised pretraining と比較して下流タスクへどの程度転移するか？
RQ4少量バッチでもモメンタムエンコーダや大きなメモリーバンクなしで、SwAV は効果的か？
RQ5訓練期間とデータ規模（ curate vs uncurated ）が自己教師あり事前学習の質に与える影響は？

主な発見

SwAV は ImageNet のトップ-1 精度 75.3% を ResNet-50 で線形評価で達成。
SwAV は転移タスクで従来の自己教師あり手法を上回り、複数のデータセットで監視付き ImageNet pretraining を超える。
手法は小さなバッチでも強力で、モメンタムエンコーダや大規模なメモリバンクを必要としない。
マルチクロップ拡張は、複数の自己教師あり手法で一貫して2–4%の利得を生む。
オンラインクラスタリングとマルチクロップ、より大きなアーキテクチャの組み合わせは、下流タスクで監督付き事前学習との差を縮めるか超える。
SwAV による未整頓データでの事前学習はランダム初期化より利得を生み、SimCLR と競合でき、データ規模とモデル規模の頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。