QUICK REVIEW

[論文レビュー] Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment

Zihui Xue, Kristen Grauman|arXiv (Cornell University)|Jun 8, 2023

Human Pose and Action Recognition被引用数 7

ひとこと要約

AE2は、自己教師ありの、オブジェクト中心のエンコーダと反転動画対比正則化を介して、未ペアデータからフレーム単位の細粒度な ego-exo 視点不変ビデオ表現を学習し、4つのデータセットで強力な跨視点性能を達成します。

ABSTRACT

The egocentric and exocentric viewpoints of a human activity look dramatically different, yet invariant representations to link them are essential for many potential applications in robotics and augmented reality. Prior work is limited to learning view-invariant features from paired synchronized viewpoints. We relax that strong data assumption and propose to learn fine-grained action features that are invariant to the viewpoints by aligning egocentric and exocentric videos in time, even when not captured simultaneously or in the same environment. To this end, we propose AE2, a self-supervised embedding approach with two key designs: (1) an object-centric encoder that explicitly focuses on regions corresponding to hands and active objects; and (2) a contrastive-based alignment objective that leverages temporally reversed frames as negative samples. For evaluation, we establish a benchmark for fine-grained video understanding in the ego-exo context, comprising four datasets -- including an ego tennis forehand dataset we collected, along with dense per-frame labels we annotated for each dataset. On the four datasets, our AE2 method strongly outperforms prior work in a variety of fine-grained downstream tasks, both in regular and cross-view settings.

研究の動機と目的

自己（第一人称）と第三者視点の不変性を持つ細粒度のアクション理解を促進する。
トレーニング時のego-exoビデオペアの同期の必要性を緩和し、データ収集の柔軟性を高める。
視点を跨いでアクションを通じて進行するフレーム単位の埋め込みを学習する。
評価用の密なフレームごとのラベルを含む新しいego-exoベンチマークを提供する。
視点を跨いだアクションフェーズ分類、検索、進行追跡などの下流タスクへの利点を示す。

提案手法

egoとexoのフレームの両方に対してフレーム単位の埋め込みを生成する自己教師付きエンコーダphiを定義する。
X (ego) と Y (exo) の埋め込みを整列させるために、動的時間ワーピング(DTW)に基づく対比コストを用いる時間的整合性目的を用いる。
手/物体領域提案とグローバル・ローカル特徴を統合するトランスフォーマを備えたオブジェクト中心エンコーダを導入する。
回避的な解を抑制するため、反転ビデオ対比正則化を導入する：L_reg = max(L_align(X,Y) - L_align(X̃,Y), 0)。
ハンド/物体信頼度が高いフレームをサンプリングし、時間的抜粋によって正例ペアを形成し、反対のシーケンスを逆転させて負例サンプルを作成することにより、未ペアデータで訓練する。
最終損失L = L_align + lambda L_regとして結合し、エンドツーエンドで最適化する。

実験結果

リサーチクエスチョン

RQ1未ペアの動画データを用いて、ego-exo視点に不変なフレーム単位の表現を学習できるか。
RQ2オブジェクト中心エンコーダによる時系列整合が、自己視点と他者視点のドメインギャップを、従来法より効果的に橋渡しできるか。
RQ3反転ビデオ対比正則化は、学習した埋め込みの安定性と品質にどのような影響を与えるか。
RQ4学習した埋め込みは、アクションフェーズ分類や跨視点検索などの下流タスクに一般化するか。

主な発見

Dataset	Method	Classification (F1 score) regular	Classification (F1 score) ego2exo	Classification (F1 score) exo2ego	Frame Retrieval (mAP@10) regular	Frame Retrieval (mAP@10) ego2exo	Frame Retrieval (mAP@10) exo2ego	Phase Progression	Kendall’s Tau
A Break Eggs	AE2 (ours)	66.23	57.41	71.72	65.85	64.59	62.15	0.5109	0.6316
A Break Eggs	Random Features	19.18	18.93	19.45	47.13	41.74	38.19	-0.0572	0.0018
A Break Eggs	ImageNet Features	50.24	21.48	32.25	50.49	33.09	37.80	-0.1446	0.0188
A Break Eggs	ActorObserverNet	36.14	36.40	31.00	50.47	42.70	41.29	-0.0517	0.0024
A Break Eggs	single-view TCN	56.90	18.60	35.61	53.42	32.63	34.91	0.0051	0.1206
A Break Eggs	multi-view TCN	59.91	48.65	56.91	58.83	47.04	52.68	0.2669	0.2886
A Break Eggs	CARL	43.43	28.35	29.22	46.04	37.38	39.94	-0.0837	-0.0091
A Break Eggs	TCC	59.84	54.17	52.28	58.75	61.11	62.03	0.2880	0.5191
A Break Eggs	GTA	56.86	52.33	58.35	61.55	56.25	53.93	0.3462	0.4626
B Pour Milk	AE2 (ours)	85.17	84.73	82.77	84.90	78.48	83.41	0.7634	0.9062
B Pour Milk	Random Features	36.84	33.96	41.97	52.48	50.56	51.98	-0.0477	0.0050
B Pour Milk	ImageNet Features	41.59	39.93	45.52	54.09	27.31	43.21	-2.6681	0.0115
B Pour Milk	single-view TCN	47.39	43.44	42.28	57.00	46.48	47.20	-0.3238	-0.0197
B Pour Milk	CARL	48.79	52.41	43.01	55.01	52.99	51.51	-0.1639	0.0443
B Pour Milk	TCC	77.91	72.29	81.07	80.97	75.30	80.27	0.6665	0.7614
B Pour Milk	GTA	81.11	74.94	81.51	80.12	72.78	75.40	0.7086	0.8022
B Pour Milk	AE2 (ours)	85.17	84.73	82.77	84.90	78.48	83.41	0.7634	0.9062
C Pour Liquid	AE2 (ours)	66.56	57.15	65.60	65.54	65.79	57.35	0.1380	0.0934
C Pour Liquid	Random Features	45.26	47.45	44.33	49.83	55.44	55.75	-0.1303	-0.0072
C Pour Liquid	ImageNet Features	53.13	22.44	44.61	51.49	52.17	30.44	-1.6329	-0.0053
C Pour Liquid	single-view TCN	54.02	32.77	51.24	48.83	55.28	31.15	-0.5283	0.0103
C Pour Liquid	CARL	56.98	47.46	52.68	55.29	59.37	36.80	-0.1176	0.0085
C Pour Liquid	TCC	52.53	43.85	42.86	62.33	56.08	57.89	0.1163	0.1103
C Pour Liquid	GTA	56.92	42.97	59.96	62.79	58.52	53.32	0.4691	0.4901
C Pour Liquid	AE2 (ours)	66.56	57.15	65.60	65.54	65.79	57.35	0.1380	0.0934
D Tennis Forehand	AE2 (ours)	85.87	84.71	85.68	86.83	81.46	82.07	0.5060	0.6171
D Tennis Forehand	Random Features	30.31	33.42	28.10	66.47	58.98	59.87	-0.0425	0.0177
D Tennis Forehand	ImageNet Features	69.15	42.03	58.61	76.96	66.90	60.31	-0.4143	0.0734
D Tennis Forehand	single-view TCN	68.87	48.86	36.48	73.76	55.08	56.65	-0.0602	0.0737
D Tennis Forehand	CARL	59.69	35.19	47.83	69.43	54.83	63.19	-0.1310	0.0542
D Tennis Forehand	TCC	78.41	53.29	32.87	80.24	55.84	47.27	0.2155	0.1040
D Tennis Forehand	GTA	83.63	82.91	81.80	85.20	78.00	79.14	0.4691	0.4901
D Tennis Forehand	AE2 (ours)	85.87	84.71	85.68	86.83	81.46	82.07	0.5060	0.6171

AE2は、4つのego-exoデータセットにおける分類、検索、フェーズ進行などの複数タスクで一貫してベースラインを上回る。
Break Eggsでは、AE2は66.23（regular）、57.41（ego2exo）、71.72（exo2ego）のF1、65.85/64.59/62.15のmAP@10、 progresion 0.5109、Kendall’s Tau 0.6316を達成。
Pour Milkでは、AE2は85.17（regular）、84.73（ego2exo）、82.77（exo2ego）のF1、84.90/78.48/83.41のmAP@10、 progresion 0.7634、Kendall’s Tau 0.9062を達成。
Pour Liquidでは、AE2は66.56（regular）、57.15（ego2exo）、65.60（exo2ego）のF1、65.54/65.79/57.35のmAP@10、 progresion 0.1380、Kendall’s Tau 0.0934を達成。
Tennis Forehandでは、AE2は85.87（regular）、84.71（ego2exo）、85.68（exo2ego）のF1、86.83/81.46/82.07のmAP@10、 progresion 0.5060、Kendall’s Tau 0.6171を達成。
アブレーションでは、オブジェクト中心エンコーダ(+62.86 / +84.04 / +63.28 / +84.14)および対比正則化付き(+66.23 / +85.17 / +66.56 / +85.87) が、Base DTWをデータセット横断で改善。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。