[論文レビュー] Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives
Ego-Exo4D は、熟練した活動の同期された自撮視点(ego)と外視点(exo)の大規模なマルチモーダルデータセットと、4つのベンチマークタスクファミリーおよびベースラインモデルを紹介します。
We present Ego-Exo4D, a diverse, large-scale multimodal multiview video dataset and benchmark challenge. Ego-Exo4D centers around simultaneously-captured egocentric and exocentric video of skilled human activities (e.g., sports, music, dance, bike repair). 740 participants from 13 cities worldwide performed these activities in 123 different natural scene contexts, yielding long-form captures from 1 to 42 minutes each and 1,286 hours of video combined. The multimodal nature of the dataset is unprecedented: the video is accompanied by multichannel audio, eye gaze, 3D point clouds, camera poses, IMU, and multiple paired language descriptions -- including a novel "expert commentary" done by coaches and teachers and tailored to the skilled-activity domain. To push the frontier of first-person video understanding of skilled human activity, we also present a suite of benchmark tasks and their annotations, including fine-grained activity understanding, proficiency estimation, cross-view translation, and 3D hand/body pose. All resources are open sourced to fuel new research in the community. Project page: http://ego-exo4d-data.org/
研究の動機と目的
- 一人称視点と三人称視点の両方から熟練した人間の活動の理解を促進する。
- 複数の領域に跨る、同期した ego と exo 動画を含む多様で大規模なデータセットを提供する。
- マルチモーダル信号と言語リソースでデータを注釈付けし、マルチモーダル知覚と学習を支援する。
- ego-exo 関係を活用して跨視理解とコーチング応用を進展させるベンチマークタスクを定義する。
提案手法
- Aria ゴーグルを用いた低コストの同期 ego-exo リグをキャプチャして公開する。4–5 台の exocentric カメラと共に。
- 13 都市の131シーンで839 名の参加者から1,422 時間のビデオを収集し、5,625 テイク。
- マルチモーダルデータとして音声、IMU、視線、RGB/SLAM カメラ、3D 環境点群、さらには時刻インデックス付きの言語注釈を提供する。
- 三つの対になる言語リソースを注釈付けする:専門家の解説、語り-行動記述、アトミックアクション記述。
- 四つのタスクファミリー(関係、認識、熟練度推定、ego pose)を含むベンチマークスイートと広範なベースラインモデルを定義する。
実験結果
リサーチクエスチョン
- RQ1極端な視点変化を横断して、自撮視点と他撮視点をどのように関連付けて翻訳・対応させることができるか?
- RQ2ペアとなる ego-exo 学習データを用いて、微細なキーステップをモデルがどれだけ正確に認識できるか?
- RQ3ego および exo 視点から熟練度を推定できるか、技能品質の時系列的位置特定を含む?
- RQ4現実世界の設定で ego ビデオから3D の身体/手の姿勢を回復する実現可能性は?
- RQ5言語データ(専門家の解説、語り、アトミック記述)はマルチモーダルな技能理解とグラウンディングをどのように支援できるか?
主な発見
- 本データセットは 1,422 時間の ego+exo ビデオ、5,625 テイク、839 名のカメラ装着者、131 シーン、13 都市から構成されている。
- マルチモーダル資源には 7 チャネル音声、IMU、視線、SLAM カメラ、3D 点群、そして広範な時刻インデックスを持つ三つの対になる言語コーパスが含まれる。
- 4つのベンチマークタスクファミリーが提案されている:ego-exo 関係、ego(-exo) 認識、ego(-exo) 熟練度推定、そして ego pose、それぞれ注釈とベースラインを伴う。
- ベースラインモデルと公開ベンチマークチャレンジは2024年に開始される予定で、データとコードはオープンソース化される。
- 専門家の解説言語ストリームは、内容よりも実行品質に焦点を当てた細かな評価手がかりを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。