QUICK REVIEW

[論文レビュー] Efficient Self-supervised Vision Transformers for Representation Learning

Chunyuan Li, Jianwei Yang|arXiv (Cornell University)|Jun 17, 2021

Domain Adaptation and Few-Shot Learning参考文献 72被引用数 83

ひとこと要約

EsViTは、多段階ViTアーキテクチャと非対比的な領域マッチング事前学習タスクを組み合わせ、 prior SSL methods よりもはるかに高いスループットとパラメータ効率を実現しつつ、ImageNetの線形プローブ精度を高く達成する。

ABSTRACT

This paper investigates two techniques for developing efficient self-supervised vision transformers (EsViT) for visual representation learning. First, we show through a comprehensive empirical study that multi-stage architectures with sparse self-attentions can significantly reduce modeling complexity but with a cost of losing the ability to capture fine-grained correspondences between image regions. Second, we propose a new pre-training task of region matching which allows the model to capture fine-grained region dependencies and as a result significantly improves the quality of the learned vision representations. Our results show that combining the two techniques, EsViT achieves 81.3% top-1 on the ImageNet linear probe evaluation, outperforming prior arts with around an order magnitude of higher throughput. When transferring to downstream linear classification tasks, EsViT outperforms its supervised counterpart on 17 out of 18 datasets. The code and models are publicly available: https://github.com/microsoft/esvit

研究の動機と目的

自己教師あり学習におけるモノリシックなViTと多段階ViTの効率性の限界を調査する。
多段階アーキテクチャで失われる細粒度な領域対応を回復する領域ベースの事前学習タスクを提案する。
多段階アーキテクチャと領域マッチングを組み合わせることで下流の転移と線形プローブ性能が向上することを示す。
EsViT が従来のSSL手法よりもはるかに高いスループットとパラメータ効率を実現しつつ高精度を達成することを示す。

提案手法

SSLのためのスパース自己注意を用いた多段階ViTアーキテクチャのトレードオフを検討する。
増強ビューを横断する局所特徴に作用する非対比的領域マッチング損失L_Rを導入する。
L_Rをビューレベルの非対比損失L_Vと結合し、結合目的関数L = L_R + L_Vとする。
SSLトレーニングにはEMAパラメータ更新を用いた教師-学生設定を使用する。
定性的な視覚化とアブレーションを通じて領域マッチングと注意機構の挙動を評価する。

実験結果

リサーチクエスチョン

RQ1自己教師付き表現学習において、多段階ViTはモノリシックViTと比較して効率と精度の点でどうか？
RQ2領域マッチングの事前学習タスクは、多段階アーキテクチャで失われた細粒度の領域対応を回復し表現を改善できるか？
RQ3L_RとL_Vを結合することがImageNetの線形プローブ性能と転移学習に与える影響はどうなるか？
RQ4アーキテクチャ間での領域マッチング目的の設計選択と制約は何か？
RQ5EsViTの表現は下流タスクで監督あり手法より一般化性能が高いか？

主な発見

EsViTはImageNet線形プロービングで81.3%のtop-1精度を達成し、従来のSSL手法よりもはるかに高いスループットとより少ないパラメータで上回る。
EsViTは18の下流分類データセットのうち17で、教師ありモデルよりも優れた転移を示す。
領域マッチング損失L_Rは多段階ViTにおける細粒度領域対応の損失を緩和し、表現品質を向上させる。
非対比的L_RとL_Vの組み合わせはk-NNと線形プローブの性能を向上させ、マルチステージアーキテクチャからの効率向上を維持する。
領域マッチングを用いたEsViTは、ImageNetで従来のSOTA SSL手法に対して、スループットが最大約10倍、パラメータ効率が最大約3.5倍高いことを示す。
定性的分析は、L_Rが用いられる場合に特に意味のある領域対応と注意パターンをEsViTが学習することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。