[論文レビュー] Scaling Egocentric Vision: The EPIC-KITCHENS Dataset
EPIC-KITCHENS は native kitchens で撮影された、32 名の参加者による大規模なエゴセントリック動画ベンチマークで、密なアクション区分とアクティブなオブジェクトバウンディングボックスを備え、見られたキッチンと見られていないキッチンの両方で物体検出、アクション認識、アクション予測のベースラインを提供します。
First-person vision is gaining interest as it offers a unique viewpoint on people's interaction with objects, their attention, and even intention. However, progress in this challenging domain has been relatively slow due to the lack of sufficiently large datasets. In this paper, we introduce EPIC-KITCHENS, a large-scale egocentric video benchmark recorded by 32 participants in their native kitchen environments. Our videos depict nonscripted daily activities: we simply asked each participant to start recording every time they entered their kitchen. Recording took place in 4 cities (in North America and Europe) by participants belonging to 10 different nationalities, resulting in highly diverse cooking styles. Our dataset features 55 hours of video consisting of 11.5M frames, which we densely labeled for a total of 39.6K action segments and 454.3K object bounding boxes. Our annotation is unique in that we had the participants narrate their own videos (after recording), thus reflecting true intention, and we crowd-sourced ground-truths based on these. We describe our object, action and anticipation challenges, and evaluate several baselines over two test splits, seen and unseen kitchens. Dataset and Project page: http://epic-kitchens.github.io
研究の動機と目的
- 参加者の native kitchens で記録された大規模なエゴセントリック(ファーストパーソン)動画データセットを導入し、自然なマルチタスクと意図を研究する。
- 参加者のナレーションに合わせた行動と相互作用オブジェクトの密なアノテーションを提供し、真の意図を捉える。
- 見られたキッチンと見られていないキッチンの分割の下で、物体検出、アクション認識、アクション予測を定義・ベンチマークする。
- 自然主義的なエゴセントリックビジョンにおける研究を推進する課題とベースラインを際立たせる。
提案手法
- 北米および欧州の4都市で、合計55時間のエゴセントリック動画を収集する。
- 記録後に参加者が行動を語るようにして真の意図を反映させ、整合性とラベリングのためのグラウンドトゥルースをクラウドソースする。
- アクション区間全体で相互作用に関与するオブジェクトの周りにアクティブなオブジェクトのバウンディングボックスを注釈する。
- 動詞と名詞をそれぞれ125の動詞クラス(C_V)と331の名詞クラス(C_N)にクラスタリングして、多クラスタスクを実現する。
- 見られたキッチンと未知のキッチンの分割を用いて、3つの課題(物体検出、アクション認識、アクション予測)のベースラインを評価する。
実験結果
リサーチクエスチョン
- RQ1自然なマルチタスクと意図を反映するnative環境で、どのように大規模なエゴセントリックキッチンデータセットを収集できるか?
- RQ2見られたキッチンと見られていないキッチンでのエゴセントリック物体検出、アクション認識、予測における課題とベースライン性能は何か?
- RQ3ナレーションと多言語アノテーションはグラウンドトゥルースの品質と下流タスクの性能にどう影響するか?
- RQ4エゴセントリック視覚タスクにおいて、未知環境への汎化能力はどの程度か?
主な発見
- EPIC-KITCHENS は 55 hours の映像、11.5 百万フレーム、39.6千のアクション区分、454千以上のアクティブオブジェクトバウンディングボックスを含む。
- 参加者によるナレーションはグラウンドトゥルースのアクション区分を生み出すが、ギャップがあるため、著者らは時系列の調整とアノテーションの集約によって対応する。
- 演技対象オブジェクトと動詞/名詞クラスのクラスタリングは、125の動詞クラス(C_V)と331の名詞クラス(C_N)を生み、すべてのベンチマークで使用される。
- ベースラインの物体検出(Faster R-CNN with ResNet-101)とTSNベースのアクション認識/予測は、特に unseen キッチンで顕著な汎化ギャップを示す。検出の性能は特定のクラスや低-shot レジームで著しく低い。
- アクション予測は依然としてアクション認識より難しく、融合による中程度の利得はあるが、将来のアクションを予測する場合は全体的に性能が低下する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。