Skip to main content
QUICK REVIEW

[論文レビュー] Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment

Zihui Xue, Kristen Grauman|arXiv (Cornell University)|Jun 8, 2023
Human Pose and Action Recognition被引用数 7
ひとこと要約

AE2は、自己教師ありの、オブジェクト中心のエンコーダと反転動画対比正則化を介して、未ペアデータからフレーム単位の細粒度な ego-exo 視点不変ビデオ表現を学習し、4つのデータセットで強力な跨視点性能を達成します。

ABSTRACT

The egocentric and exocentric viewpoints of a human activity look dramatically different, yet invariant representations to link them are essential for many potential applications in robotics and augmented reality. Prior work is limited to learning view-invariant features from paired synchronized viewpoints. We relax that strong data assumption and propose to learn fine-grained action features that are invariant to the viewpoints by aligning egocentric and exocentric videos in time, even when not captured simultaneously or in the same environment. To this end, we propose AE2, a self-supervised embedding approach with two key designs: (1) an object-centric encoder that explicitly focuses on regions corresponding to hands and active objects; and (2) a contrastive-based alignment objective that leverages temporally reversed frames as negative samples. For evaluation, we establish a benchmark for fine-grained video understanding in the ego-exo context, comprising four datasets -- including an ego tennis forehand dataset we collected, along with dense per-frame labels we annotated for each dataset. On the four datasets, our AE2 method strongly outperforms prior work in a variety of fine-grained downstream tasks, both in regular and cross-view settings.

研究の動機と目的

  • 自己(第一人称)と第三者視点の不変性を持つ細粒度のアクション理解を促進する。
  • トレーニング時のego-exoビデオペアの同期の必要性を緩和し、データ収集の柔軟性を高める。
  • 視点を跨いでアクションを通じて進行するフレーム単位の埋め込みを学習する。
  • 評価用の密なフレームごとのラベルを含む新しいego-exoベンチマークを提供する。
  • 視点を跨いだアクションフェーズ分類、検索、進行追跡などの下流タスクへの利点を示す。

提案手法

  • egoとexoのフレームの両方に対してフレーム単位の埋め込みを生成する自己教師付きエンコーダphiを定義する。
  • X (ego) と Y (exo) の埋め込みを整列させるために、動的時間ワーピング(DTW)に基づく対比コストを用いる時間的整合性目的を用いる。
  • 手/物体領域提案とグローバル・ローカル特徴を統合するトランスフォーマを備えたオブジェクト中心エンコーダを導入する。
  • 回避的な解を抑制するため、反転ビデオ対比正則化を導入する:L_reg = max(L_align(X,Y) - L_align(X̃,Y), 0)。
  • ハンド/物体信頼度が高いフレームをサンプリングし、時間的抜粋によって正例ペアを形成し、反対のシーケンスを逆転させて負例サンプルを作成することにより、未ペアデータで訓練する。
  • 最終損失L = L_align + lambda L_regとして結合し、エンドツーエンドで最適化する。

実験結果

リサーチクエスチョン

  • RQ1未ペアの動画データを用いて、ego-exo視点に不変なフレーム単位の表現を学習できるか。
  • RQ2オブジェクト中心エンコーダによる時系列整合が、自己視点と他者視点のドメインギャップを、従来法より効果的に橋渡しできるか。
  • RQ3反転ビデオ対比正則化は、学習した埋め込みの安定性と品質にどのような影響を与えるか。
  • RQ4学習した埋め込みは、アクション フェーズ分類や跨視点検索などの下流タスクに一般化するか。

主な発見

DatasetMethodClassification (F1 score) regularClassification (F1 score) ego2exoClassification (F1 score) exo2egoFrame Retrieval (mAP@10) regularFrame Retrieval (mAP@10) ego2exoFrame Retrieval (mAP@10) exo2egoPhase ProgressionKendall’s Tau
A Break EggsAE2 (ours)66.2357.4171.7265.8564.5962.150.51090.6316
A Break EggsRandom Features19.1818.9319.4547.1341.7438.19-0.05720.0018
A Break EggsImageNet Features50.2421.4832.2550.4933.0937.80-0.14460.0188
A Break EggsActorObserverNet36.1436.4031.0050.4742.7041.29-0.05170.0024
A Break Eggssingle-view TCN56.9018.6035.6153.4232.6334.910.00510.1206
A Break Eggsmulti-view TCN59.9148.6556.9158.8347.0452.680.26690.2886
A Break EggsCARL43.4328.3529.2246.0437.3839.94-0.0837-0.0091
A Break EggsTCC59.8454.1752.2858.7561.1162.030.28800.5191
A Break EggsGTA56.8652.3358.3561.5556.2553.930.34620.4626
B Pour MilkAE2 (ours)85.1784.7382.7784.9078.4883.410.76340.9062
B Pour MilkRandom Features36.8433.9641.9752.4850.5651.98-0.04770.0050
B Pour MilkImageNet Features41.5939.9345.5254.0927.3143.21-2.66810.0115
B Pour Milksingle-view TCN47.3943.4442.2857.0046.4847.20-0.3238-0.0197
B Pour MilkCARL48.7952.4143.0155.0152.9951.51-0.16390.0443
B Pour MilkTCC77.9172.2981.0780.9775.3080.270.66650.7614
B Pour MilkGTA81.1174.9481.5180.1272.7875.400.70860.8022
B Pour MilkAE2 (ours)85.1784.7382.7784.9078.4883.410.76340.9062
C Pour LiquidAE2 (ours)66.5657.1565.6065.5465.7957.350.13800.0934
C Pour LiquidRandom Features45.2647.4544.3349.8355.4455.75-0.1303-0.0072
C Pour LiquidImageNet Features53.1322.4444.6151.4952.1730.44-1.6329-0.0053
C Pour Liquidsingle-view TCN54.0232.7751.2448.8355.2831.15-0.52830.0103
C Pour LiquidCARL56.9847.4652.6855.2959.3736.80-0.11760.0085
C Pour LiquidTCC52.5343.8542.8662.3356.0857.890.11630.1103
C Pour LiquidGTA56.9242.9759.9662.7958.5253.320.46910.4901
C Pour LiquidAE2 (ours)66.5657.1565.6065.5465.7957.350.13800.0934
D Tennis ForehandAE2 (ours)85.8784.7185.6886.8381.4682.070.50600.6171
D Tennis ForehandRandom Features30.3133.4228.1066.4758.9859.87-0.04250.0177
D Tennis ForehandImageNet Features69.1542.0358.6176.9666.9060.31-0.41430.0734
D Tennis Forehandsingle-view TCN68.8748.8636.4873.7655.0856.65-0.06020.0737
D Tennis ForehandCARL59.6935.1947.8369.4354.8363.19-0.13100.0542
D Tennis ForehandTCC78.4153.2932.8780.2455.8447.270.21550.1040
D Tennis ForehandGTA83.6382.9181.8085.2078.0079.140.46910.4901
D Tennis ForehandAE2 (ours)85.8784.7185.6886.8381.4682.070.50600.6171
  • AE2は、4つのego-exoデータセットにおける分類、検索、フェーズ進行などの複数タスクで一貫してベースラインを上回る。
  • Break Eggsでは、AE2は66.23(regular)、57.41(ego2exo)、71.72(exo2ego)のF1、65.85/64.59/62.15のmAP@10、 progresion 0.5109、Kendall’s Tau 0.6316を達成。
  • Pour Milkでは、AE2は85.17(regular)、84.73(ego2exo)、82.77(exo2ego)のF1、84.90/78.48/83.41のmAP@10、 progresion 0.7634、Kendall’s Tau 0.9062を達成。
  • Pour Liquidでは、AE2は66.56(regular)、57.15(ego2exo)、65.60(exo2ego)のF1、65.54/65.79/57.35のmAP@10、 progresion 0.1380、Kendall’s Tau 0.0934を達成。
  • Tennis Forehandでは、AE2は85.87(regular)、84.71(ego2exo)、85.68(exo2ego)のF1、86.83/81.46/82.07のmAP@10、 progresion 0.5060、Kendall’s Tau 0.6171を達成。
  • アブレーションでは、オブジェクト中心エンコーダ(+62.86 / +84.04 / +63.28 / +84.14)および対比正則化付き(+66.23 / +85.17 / +66.56 / +85.87) が、Base DTWをデータセット横断で改善。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。