QUICK REVIEW

[論文レビュー] Unsupervised Learning of Dense Visual Representations

Pedro O. Pinheiro, Amjad Almahairi|arXiv (Cornell University)|Nov 11, 2020

Domain Adaptation and Few-Shot Learning被引用数 50

ひとこと要約

VADeR はピクセルレベルの密な視覚表現をピクセル単位の対比学習で学習し、密な予測タスクで強力なベースラインを上回り、時には ImageNet の教師あり事前学習を上回る。

ABSTRACT

Contrastive self-supervised learning has emerged as a promising approach to unsupervised visual representation learning. In general, these methods learn global (image-level) representations that are invariant to different views (i.e., compositions of data augmentation) of the same image. However, many visual understanding tasks require dense (pixel-level) representations. In this paper, we propose View-Agnostic Dense Representation (VADeR) for unsupervised learning of dense representations. VADeR learns pixelwise representations by forcing local features to remain constant over different viewing conditions. Specifically, this is achieved through pixel-level contrastive learning: matching features (that is, features that describes the same location of the scene on different views) should be close in an embedding space, while non-matching features should be apart. VADeR provides a natural representation for dense prediction tasks and transfers well to downstream tasks. Our method outperforms ImageNet supervised pretraining (and strong unsupervised baselines) in multiple dense prediction tasks.

研究の動機と目的

視覚理解タスクのための密 (ピクセルレベル) 表現を、グローバルな画像表現を超えて学習する動機付け。
Pixel-levelでの知覚不変性をビュー間で強制する View-Agnostic Dense Representation (VADeR) を提案。
密な予測タスクに適したピクセル単位の埋め込みを生成するエンコーダ-デコーダアーキテクチャを開発。
VADeR の特徴をセグメンテーション、深度推定、物体検出、キーポイントタスクへ転移させる評価。

提案手法

1/4 解像度でピクセルごとの埋め込みを生成するエンコーダ-デコーダネットワーク（ResNet-50 バックボーン付きの FPN）を用いる。
異なるビュー間で同じピクセルの埋め込みを引き寄せ、異なるピクセルを離すようにピクセル単位の対比損失（NCE）で訓練。
2つの拡張ビュー間の既知のピクセル対応から正のピクセルペアを生成する。負は大規模なモメンタムキュー（MoCo風）から採取。
温度スケーリングされたコサイン類似度 c(x1,x2)= (1/τ) x1^T x2 / (||x1|| ||x2||) でピクセルの類似度を表現。
ランダムな外観変換と幾何変換によって作成された2視点ペアを用いて訓練する。損失のために1枚あたり32組のピクセル対応ペアを使用。
エンコーダを MoCo2 重みで初期化；デコーダはゼロから訓練；負のための0.999 のモメンタムで 65,536 サイズの辞書を使用。

実験結果

リサーチクエスチョン

RQ1教師なし学習で学習した密 (ピクセルレベル) 表現はセグメンテーション、深度、キーポイント検出などの密な予測タスクへ効果的に転移できるか？
RQ2ビュー不変性を強制するピクセルレベルの対比目的は、密なタスクにおいてグローバル（画像レベル）の表現よりも改善するか？
RQ3ピクセル対応の品質とビューサンプリング戦略が下流の性能に与える影響は？
RQ4 VADeR は微調整時に、ラベル付きデータ量を変化させた場合、MoCo および ImageNet-supervised pretraining と比較してどうなるか？

主な発見

VADeR は MoCo に比べて意味論的セグメンテーションと深度予測で、固定表現を用いた場合に上回る（例: VOC で mIoU 56.7 対 43.0； NYU-d v2 で深度 RMSE 0.964 対 1.136）。
固定表現設定の下で、少なくとも一つの意味セマンティックセグメンテーションタスクと深度予測で、 supervised ImageNet pretraining を上回る。
物体検出、インスタンスセグメーション、キーポイント検出の分野で、同じ FPN アーキテクチャの下で、VADeR は MoCo および教師ありベースラインを一貫して上回る。
VADeR でエンコーダとデコーダの両方を初期化して微調整することで、ラベルデータが限られている場合に有利を示し、しばし MoCo の性能に匹敵または上回り、ラベル付きデータが少なくなると教師あり事前学習を上回る。
密な対応タスク（DAVIS-2017）の場合、 VADeR は複数のベースラインと比較して J 指標と F 指標が高く、ピクセルレベルの転移が強いことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。