[論文レビュー] ReSSL: Relational Self-Supervised Learning with Weak Augmentation
ReSSL は 増補視点(augmented views)間の 関係的類似性を モデル化することで 視覚表現を 学習し、弱い拡張と モーメンタム メモリターゲットを 使用して、従来の SSL 手法より 効率と性能を 改善します。
Self-supervised Learning (SSL) including the mainstream contrastive learning has achieved great success in learning visual representations without data annotations. However, most of methods mainly focus on the instance level information (\ie, the different augmented images of the same instance should have the same feature or cluster into the same class), but there is a lack of attention on the relationships between different instances. In this paper, we introduced a novel SSL paradigm, which we term as relational self-supervised learning (ReSSL) framework that learns representations by modeling the relationship between different instances. Specifically, our proposed method employs sharpened distribution of pairwise similarities among different instances as extit{relation} metric, which is thus utilized to match the feature embeddings of different augmentations. Moreover, to boost the performance, we argue that weak augmentations matter to represent a more reliable relation, and leverage momentum strategy for practical efficiency. Experimental results show that our proposed ReSSL significantly outperforms the previous state-of-the-art algorithms in terms of both performance and training efficiency. Code is available at \url{https://github.com/KyleZheng1997/ReSSL}.
研究の動機と目的
- インスタンスレベルの不変性を単に強制するのではなく、インスタンス間の関係性を保持することで 表現学習を動機づける。
- 拡張を跨いで類似度分布を整合させる関係分散損失を導入する。
- 安定で有益なターゲットを提供しつつ、トレーニング効率を向上させるために、弱い拡張とモーメンタムベースの教師を用いる。
- 小規模・中規模・大規模な視覚ベンチマークで顕著な経験的改善を実証する。
提案手法
- 拡張ビュー間のペアワイズ類似度に基づくシャープ化された分布として関係指標を定義する。
- 各画像について2つの拡張ビューを構築し、温度 tau_t および tau_s で softmax を用いて類似度に基づく関係分布 p1 と p2 を計算する。
- p1 と p2 の間の KL ダイバージェンスを最小化して関係的一貫性を強制する(p1 をターゲットとするクロスエントロピー)。
- モーメンタム更新の教師ネットワークとメモリキューを用いて大規模バッチの関係を模擬し、ターゲットを安定化させる(大規模なメモリ要件はなし)。
- 教師には信頼性の高い関係ターゲットを提供するために弱い拡張を採用し、これらの関係から学ぶコントラスト風の学生を用いる。
- 従来の対比損失を提案された関係的一貫性損失に置換し、控えめなトレーニングコストで最先端の結果を達成する。
実験結果
リサーチクエスチョン
- RQ1インスタンス間の relational 構造を拡張を跨いで保持することは、従来のインスタンスディスクリミネーションを超えた表現学習の改善につながるか。
- RQ2ターゲットに対してより弱い拡張を用いると、より信頼性の高い関係分布とより良い性能が得られるか。
- RQ3メモリキューのサイズと教師のモーメンタムは、関係ターゲットの質と下流の精度にどのような影響を与えるか。
- RQ4ReSSL は標準的な SSL ベンチマーク(ImageNet 線形評価、転移タスク)において、強力なベースラインと比較してどの程度性能を発揮するか。
- RQ5ReSSL は複数のバックプロパグーション SSL 手法よりもトレーニング効率が高いまま、性能を維持または向上できるか。
主な発見
- ReSSL は ImageNet の線形評価で 200 エポック、Top-1 69.9% を達成(EMA で 1x の backprop)、MoCoV2 を 2.4% 上回る。
- マルチクロップ戦略で ImageNet の Top-1 は 74.7%、CLS A-Multi を 1.4% 上回る。
- 弱い教師拡張は CIFAR-10、CIFAR-100、STL-10、Tiny ImageNet 全般で性能を大幅に向上させる。
- 関係ターゲットのメモリバンクを大きくする(最大 16384)と精度が向上するが、巨大サイズを超えると収益は小さくなる。
- ImageNet 1k で 2x backprop の場合、ReSSL はいくつかのベースラインより競争力がある/ 優れている; 4 枚クロップでは従来の最先端手法を上回る。
- t-SNE 可視化は ReSSL が MoCoV2 に比べクラス分離が良好で、学習特徴における関係構造がよりはっきりしていることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。