QUICK REVIEW

[論文レビュー] Self-supervised Learning for Video Correspondence Flow

Zihang Lai, Weidi Xie|arXiv (Cornell University)|May 2, 2019

Video Surveillance and Tracking Methods参考文献 52被引用数 56

ひとこと要約

本論文は、情報ボトルネック、Restricted Attention、スケジュールサンプリング、サイクル整合性を用いた自己教師付きフレーム再構成により、RGB動画埋め込みをピクセル単位の対応フローへと学習し、ファインチューニングなしでDAVIS-2017とJHMDBで最先端を達成した。

ABSTRACT

The objective of this paper is self-supervised learning of feature embeddings that are suitable for matching correspondences along the videos, which we term correspondence flow. By leveraging the natural spatial-temporal coherence in videos, we propose to train a ``pointer'' that reconstructs a target frame by copying pixels from a reference frame. We make the following contributions: First, we introduce a simple information bottleneck that forces the model to learn robust features for correspondence matching, and prevent it from learning trivial solutions, \eg matching based on low-level colour information. Second, to tackle the challenges from tracker drifting, due to complex object deformations, illumination changes and occlusions, we propose to train a recursive model over long temporal windows with scheduled sampling and cycle consistency. Third, we achieve state-of-the-art performance on DAVIS 2017 video segmentation and JHMDB keypoint tracking tasks, outperforming all previous self-supervised learning approaches by a significant margin. Fourth, in order to shed light on the potential of self-supervised learning on the task of video correspondence flow, we probe the upper bound by training on additional data, \ie more diverse videos, further demonstrating significant improvements on video segmentation.

研究の動機と目的

手動アノテーションなしで、動画内の堅牢なピクセルレベルの対応を学習する動機付け。
フレーム再構成を通じて埋め込みを訓練するため、動画の時空コヒーレンスを活用する。
アーキテクチャと訓練戦略を通じて、つまらない解決や追跡器のドリフトを防ぐ。
ビデオセグメンテーションやキーポイント追跡などの下流タスクで高い性能を示す。
より多様な未ラベル動画データで訓練して上限を探る。）

提案手法

RGBチャネルと強度を撹乱する情報ボトルネックを用いて埋め込みを生成するResNet-18ベースのエンコーダを使用する。
局所検索窓内で密な対応を計算するためのRestricted Attentionを実装する（視差M）。
訓練・テストのギャップを埋めるため、短いシーケンス上でスケジュールサンプリングを用いた再帰的な長距離モデルを訓練する。
伝播時のドリフトに対する正則化として前方-後方のサイクル整合性を適用する。
フレーム再構成は、16色クラス（Lab空間でのK-means）と交差エントロピー損失を用いたカラー量子化分類タスクとして扱われる。
Kineticsで完全に自己教師ありで訓練し、6fpsでデコード、RGB入力と頑健性を促すためのカラー dropout がオプション。

実験結果

リサーチクエスチョン

RQ1ラベル付きデータなしで、自己教師あり学習が密な動画対応フローに適した埋め込みを生み出せるか？
RQ2情報ボトルネックを用いたフレーム再構成は、低レベルの色の手がかりへの依存を防ぎ、つまらない解を減らせるか？
RQ3スケジュールサンプリングとサイクル整合性は、長いシーケンスでの追跡器のドリフトを緩和するか？
RQ4Restricted attentionは性能と高解像度入力へのスケーラビリティにどう影響するか？
RQ5より多様な未ラベル動画で訓練した場合の性能の上限はどれくらいか？

主な発見

方法	教師あり	データセット	J&F（平均）	J（平均）	J（リコール）	F（平均）	F（リコール）
Ours (Full Model ResNet-18)	✗	Kinetics	49.5	47.7	53.2	51.3	56.5
Ours (Full Model ResNet-18)	✗	OxUvA	50.3	48.4	53.2	52.2	56.0
ImageNet (ResNet-50)	✓	ImageNet	49.7	50.3	-	49.0	-
SiamMask	✓	YouTube-VOS	53.1	51.1	60.5	55.0	64.3
OSVOS	✓	DAVIS	60.3	56.6	63.8	63.9	73.8
CycleTime (ResNet-50)	✗	VLOG	40.7	41.9	40.9	39.4	33.6

DAVIS-2017の動画セグメンテーションで自己教師あり法の中で最先端を達成（J&F平均 49.5/47.7? 表を参照）およびJHMDBのキーポイント追跋 tracked?（PCK指標）.
カラー dropoutとRGB入力は訓練時とテスト時の乖離を埋める上で極めて重要で、DAVIS-2017 の指標を顕著に改善する。
Restricted attentionはメモリを約1.4G GPU使用量削減し、ドロップは生じるが、full attentionと比較しても競争力のある性能を維持する。
スケジュールサンプリングは頑健性を大幅に向上させ、ドリフトを低減し、特に照度変化下で効果を発揮する。
前方-後方サイクル整合性は長いシーケンスの伝搬を大幅に改善し、ドリフトを低減しJ&Fスコアを向上させる。
上限実験は追加の未ラベル動画データが性能をさらに向上させ、いくつかのクラスで従来の監視付きベースラインに近づくか超えることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。