Skip to main content
QUICK REVIEW

[論文レビュー] Siamese Masked Autoencoders

Agrim Gupta, Jiajun Wu|arXiv (Cornell University)|May 23, 2023
Domain Adaptation and Few-Shot Learning被引用数 17
ひとこと要約

SiamMAEは、非対称マスキングとシアム(サイア)エンコーダを用いてMasked Autoencodersを動画へ拡張し、重い拡張や追跡ベースのプリテキストなしで、動画のオブジェクトセグメンテーション、姿勢キーポイント伝播、意味的部位伝播におけるゼロショット視覚対応で最先端を達成した。

ABSTRACT

Establishing correspondence between images or scenes is a significant challenge in computer vision, especially given occlusions, viewpoint changes, and varying object appearances. In this paper, we present Siamese Masked Autoencoders (SiamMAE), a simple extension of Masked Autoencoders (MAE) for learning visual correspondence from videos. SiamMAE operates on pairs of randomly sampled video frames and asymmetrically masks them. These frames are processed independently by an encoder network, and a decoder composed of a sequence of cross-attention layers is tasked with predicting the missing patches in the future frame. By masking a large fraction ($95\%$) of patches in the future frame while leaving the past frame unchanged, SiamMAE encourages the network to focus on object motion and learn object-centric representations. Despite its conceptual simplicity, features learned via SiamMAE outperform state-of-the-art self-supervised methods on video object segmentation, pose keypoint propagation, and semantic part propagation tasks. SiamMAE achieves competitive results without relying on data augmentation, handcrafted tracking-based pretext tasks, or other techniques to prevent representational collapse.

研究の動機と目的

  • 自己教師付きの方法で動画から視覚的対応を学ぶ動機付け。
  • 動きと物体境界を強調する、MAEsを動画へ適用するシンプルで効果的な拡張を提案。
  • データ拡張や追跡ベースのプリテキストに依存せず、下流タスクで強い性能を達成。

提案手法

  • 2つの動画フレームをサンプルする。過去フレームをマスクしないまま、未来フレームのパッチの95%をマスクする(非対称マスキング)。
  • 独立して動作するシアム式ViTエンコーダでフレームを処理。
  • クロスアテンションベースのデコーダで未来フレームの欠損パッチを予測。
  • マスクされたパッチのピクセル再構成にL2ロスを用いて訓練。時系列位置エンベディングは使用しない。
  • エンコーダ/デコーダのバリアントを検討し、非対称マスキングを用いたsiameseエンコーダとcross-selfデコーダが最良の性能を示すことを発見。
  • 非対称マスキングとクロスアテンションデコーダが、過度なデータ拡張なしで頑健な密な対応関係を学習することを示す。
Figure 1 : Siamese Masked Autoencoders. During pre-training we randomly sample a pair of video frames and randomly mask a huge fraction ( $95\%$ ) of patches of the future frame while leaving the past frame unchanged. The two frames are processed independently by a siamese encoder parametrized by a
Figure 1 : Siamese Masked Autoencoders. During pre-training we randomly sample a pair of video frames and randomly mask a huge fraction ( $95\%$ ) of patches of the future frame while leaving the past frame unchanged. The two frames are processed independently by a siamese encoder parametrized by a

実験結果

リサーチクエスチョン

  • RQ1予測型の非対称マスク付き自己符号化を動画フレームで訓練して、コントラスト型拡張なしで微細な視覚対応を学習できるか。
  • RQ2エンコーダ/デコーダの設計選択は、動画中のオブジェクト中心の時系列対応の学習にどう影響するか。
  • RQ3SiamMAE表現の動画オブジェクトセグメンテーション、姿勢キーポイント伝播、意味的部位伝播への下流効果は何か。

主な発見

方法バックボーンデータセットJ&FmJ_mF_m
SupervisedResNet-50ImageNet66.063.768.4
SimSiamResNet-50ImageNet66.364.568.2
MoCoResNet-50ImageNet65.463.267.6
TimeCycleResNet-50VLOG40.741.939.4
UVCResNet-50Kinetics56.354.558.1
VFSResNet-50Kinetics68.966.571.3
MAE-STViT-L/16Kinetics54.655.553.6
MAEViT-B/16ImageNet53.552.155.0
VideoMAEViT-S/16Kinetics39.339.738.9
DinoViT-S/16ImageNet61.860.263.4
SiamMAE (ours)ViT-S/16Kinetics62.060.363.7
DinoViT-S/8ImageNet69.966.673.1
SiamMAE (ours)ViT-S/8Kinetics71.468.474.5
  • SiamMAE は3つの下流タスク(動画オブジェクトセグメンテーション、姿勢キーポイント伝播、意味的部位伝播)で最先端の自己 supervise法を上回る。
  • 小さなパッチサイズ(ViT-S/8)を用いると、SiamMAE の結果が大幅に向上し、場合によっては大きな ImageNet 学習モデルを上回る。
  • 非対称マスキング(過去フレームは完全入力、未来フレームは高度にマスク)と siamese エンコーダ・クロス自己デコーダで、物体の動きと境界を効果的に学習し、アフィニティ機構のように機能します。
  • SiamMAE はデータ拡張や追跡ベースのプリテキストなしで競争力のあるゼロショット性能を達成。
  • AttentionマップにはCLS損失なしにも関わらず、物体境界の顕在化が見られる。
Figure 2 : Visualizations on the Kinetics-400 [ 93 ] validation set (masking ratio $90\%$ ). For each video sequence, we sample a clip of $8$ frames with a frame gap of $4$ and show the original video (top), SiamMAE output (middle), and masked future frames (bottom). Reconstructions are shown with $
Figure 2 : Visualizations on the Kinetics-400 [ 93 ] validation set (masking ratio $90\%$ ). For each video sequence, we sample a clip of $8$ frames with a frame gap of $4$ and show the original video (top), SiamMAE output (middle), and masked future frames (bottom). Reconstructions are shown with $

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。