QUICK REVIEW
[論文レビュー] EPIC-KITCHENS-100
Dima Damen, Davide Moltisanti|Explore Bristol Research|Jan 1, 2020
Video Surveillance and Tracking Methods参考文献 129被引用数 102
ひとこと要約
EPIC-KITCHENS-100は、頭部装着ビデオの100時間へと拡張された最大規模の自己視点ビジョンデータセットを、より密なマルチタスク注釈とともに提供し、アクション認識、検出、予測、クロスモーダル検索、そして教師なしドメイン適応ベンチマークを可能にします。
ABSTRACT
Extended Footage for EPIC-KITCHENS dataset, to 100 hours of footage. For automatic annotations, see separate dataset at: https://doi.org/10.5523/bris.3l8eci2oqgst92n14w2yqi5ytu 10/09/2020 **N.b. please also see ERRATUM published at https://github.com/epic-kitchens/epic-kitchens-100-annotations/blob/master/README.md#erratum**
研究の動機と目的
- EPIC-KITCHENSを45環境にまたがる100時間の即興的な自己視点ビデオへ拡張する。
- 微細なアクションのためのより密な、より完全な注釈パイプラインを提供する。
- ベースラインと指標を備えた複数のベンチマーク(アクション認識、アクション検出、予測、検索、教師なしドメイン適応)を有効化・定義する。
- 時間とドメインギャップに対する汎化の検討(テスト・オブ・タイム)と追加データによるスケーラビリティを評価する。
提案手法
- アクション注釈を高密度化するスケーラブルなナレーションベースの注釈パイプライン(pause-and-talk)を導入する。
- 動詞/名詞の語彙分類を再解析・精練し、重複を最小化したクラスにクラスター化する。
- より大規模なクラウドソーシングの注釈者体制と品質管理を用いて、アクションセグメントの時間的境界を注釈する。
- Mask R-CNNとハンド-オブジェクト相互作用検出器を用いた自動的な空間的事前情報で注釈を充実させる。
- 6つのチャレンジをベースラインと指標とともに定義し、再現性のためのスクリプトとモデルを公開する。
- 未知の参加者とティールクラスを含む訓練/検証/テストのデータ分割を行い、汎化を強化する。
![Figure 1: Left: Frames from EPIC-KITCHENS-100 showcasing returning participants with returning or changing kitchens (top) as well as new participants (bottom). Right: Comparisons between recordings from [1] and newly collected videos, with selected frames showcasing the same action. Note object loca](https://ar5iv.labs.arxiv.org/html/2006.13256/assets/figures/all_kitchens_fig_v2.png)
実験結果
リサーチクエスチョン
- RQ1より密で階層的な注釈は、自己視点ビデオにおけるアクションの粒度と下流タスクの性能をどれだけ改善するか?
- RQ2EPIC-KITCHENS-55以前のデータで訓練されたモデルは、未知の参加者や環境を含むEPIC-KITCHENS-100へどのように一般化するか(時間のテスト)?
- RQ3この未編集データセットにおける教師なしドメイン適応と弱教師あり学習が、アクション認識と検出に与える影響は何か?
- RQ4EPIC-KITCHENS-100におけるアクション認識、検出、予測、クロスモーダル検索、ドメイン適応のベースライン能力はどの程度か?
- RQ5新しく多様なデータを追加することは、ドメインギャップを越えたスケーラビリティと一般化にどう影響するか?
主な発見
- EPIC-KITCHENS-100は100時間、700本のビデオ、および4,053のアクションクラス(動詞、名詞、アクション)にわたる89,977の細かなアクションセグメントから成る。
- 新しい注釈パイプラインは、前版よりも1分あたりのアクション数を54%増加させ、アクションセグメントを128%多く生み出す。
- 動詞(97クラス)と名詞(300クラス)は長尾分布を示し、新しく収集されたビデオには多数の新クラスが出現している。
- 未知の参加者とテールクラスの評価はドメインギャップを示し、多様なデータと頑健な汎化モデルの必要性を示している。
- アクション検出は依然として課題が多く、IoU閾値が高くなると平均適合度(mAP)は通常低く、重なり合う長く多様な長さのアクションの複雑さを浮き彫りにしている。
- このデータセットは、強監督/弱監督のアクション認識、アクション検出、予測、検索、教師なしドメイン適応を含む6つのベンチマークを可能にし、公開済みのベースラインと評価スクリプトを提供している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。