QUICK REVIEW

[論文レビュー] Space-Time Correspondence as a Contrastive Random Walk

Allan Jabri, Andrew Owens|arXiv (Cornell University)|Jun 25, 2020

Human Pose and Action Recognition参考文献 113被引用数 116

ひとこと要約

本論文は、自己教師付きアプローチを導入し、動画由来の時空グラフ上での対比的なランダムウォークとして視覚的な時空対応を学習する。これは回文ベースの循環整合性に導かれ、エッジドロップアウトとテスト時適応によって強化される。

ABSTRACT

This paper proposes a simple self-supervised approach for learning a representation for visual correspondence from raw video. We cast correspondence as prediction of links in a space-time graph constructed from video. In this graph, the nodes are patches sampled from each frame, and nodes adjacent in time can share a directed edge. We learn a representation in which pairwise similarity defines transition probability of a random walk, so that long-range correspondence is computed as a walk along the graph. We optimize the representation to place high probability along paths of similarity. Targets for learning are formed without supervision, by cycle-consistency: the objective is to maximize the likelihood of returning to the initial node when walking along a graph constructed from a palindrome of frames. Thus, a single path-level constraint implicitly supervises chains of intermediate comparisons. When used as a similarity metric without adaptation, the learned representation outperforms the self-supervised state-of-the-art on label propagation tasks involving objects, semantic parts, and pose. Moreover, we demonstrate that a technique we call edge dropout, as well as self-supervised adaptation at test-time, further improve transfer for object-centric correspondence.

研究の動機と目的

ラベルなしの動画から、空間と時間を超えた視覚対応を捉える表現を学習する。
動画パッチの時空グラフ上で対応を経路探索問題として定式化する。
ラベルなしで監督信号を提供するために、回文列における循環整合性を用いる。
エッジドロップアウトとテスト時適応を通じて頑健性と転移を向上させる。

提案手法

ノードをビデオフレームのパッチとする有向の時空グラフを構築し、エッジは学習された類似性に基づいて隣接するフレームのパッチを結ぶ。
パッチの埋め込みphiを学習し、ペアワイズ類似性がランダムウォークの確率的転移行列を定義するようにする。
回文列を用いてゼロショットターゲットを提供するように訓練し、前方と後方のウォークを通じて循環整合性を保証する。
パスに沿って開始ノードへ戻る尤度を最大化することとして学習を定式化し、対照学習目的と同等とする。
転移行列にエッジドロップアウトを導入し、ウォーカーが代替経路に頼るよう促して、共存結合領域のグルーピングを改善する。
ラベル伝播の前にラベルなし動画で埋め込みを微調整して、テスト時に自己教師付き適応を任意で行う。

実験結果

リサーチクエスチョン

RQ1自己教師付き表現は生の動画データから頑健な視覚的対応を学習できるか。
RQ2回文列による循環整合性は、グラウンドトゥルースラベルなしで監督信号を提供できるか。
RQ3エッジドロップアウトの導入は、オブジェクト中心の対応やセグメンテーション課題を改善するか。
RQ4テスト時の自己教師付き学習は、下流のラベル伝播タスクへの転移をさらに高めるか。

主な発見

学習された表現は、ラベル伝播のための類似度指標として、オブジェクト、ポーズのキーポイント、意味的パーツを含むタスクで、タスク固有の適応なしに最先端の自己教師あり法を上回る。
訓練時のウォークの長さを増やすと下流の性能が向上し、長距離の文脈の利点を示している。
エッジドロップアウトは、複数の適切な経路に依存させることで頑健性を高め、オブジェクト中心の対応を改善する。
テスト時の自己教師付き適応は、特にセグメンテーション品質のリコールにおいて、オブジェクト伝播の質をさらに高める。
このアプローチは長いウォークに対応してスケールし、複雑な監督なしの簡単な拡張で拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。