[論文レビュー] EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations
VISORはEPIC-KITCHENSのビデオにおける手とアクティブオブジェクトのピクセルレベルのセグメンテーションを導入し、長期のエゴセントリックな理解を目的として、Semi-Supervised Video Object Segmentation、Hand Object Segmentation Relations、Where Did This Come Fromの3つのベンチマークを定義します。
We introduce VISOR, a new dataset of pixel annotations and a benchmark suite for segmenting hands and active objects in egocentric video. VISOR annotates videos from EPIC-KITCHENS, which comes with a new set of challenges not encountered in current video segmentation datasets. Specifically, we need to ensure both short- and long-term consistency of pixel-level annotations as objects undergo transformative interactions, e.g. an onion is peeled, diced and cooked - where we aim to obtain accurate pixel-level annotations of the peel, onion pieces, chopping board, knife, pan, as well as the acting hands. VISOR introduces an annotation pipeline, AI-powered in parts, for scalability and quality. In total, we publicly release 272K manual semantic masks of 257 object classes, 9.9M interpolated dense masks, 67K hand-object relations, covering 36 hours of 179 untrimmed videos. Along with the annotations, we introduce three challenges in video object segmentation, interaction understanding and long-term reasoning. For data, code and leaderboards: http://epic-kitchens.github.io/VISOR
研究の動機と目的
- エゴセントリック映像における手と物体の相互作用の長期的で細かな理解を動機づける。
- EPIC-KITCHENSのアクションに対応する手、アクティブオブジェクト、および手-object関係の密なピクセルレベルアノテーションを提供する。
- AI支援ツールと手動品質管理を組み合わせたアノテーションパイプラインを開発し、スケーラブルで高品質なマスクを実現する。
- 短期的な変換追跡、手と物体の接触推論、長期的な起源追跡を評価するベンチマークを作成する。
提案手法
- アクションフレームごとにアクティブオブジェクトを意味ラベル付きでアノテーションし、3つのアクション連続区間全体で時系列的一貫性を最大化するフレームを選択する。
- AI搭載の対話型セグメンテーションツール(TORAS)を用いてピクセルレベルのマスク作成を加速し、その後手動品質チェックとルールベースの一貫性維持を行う。
- 疎なアノテーションを補間して、品質指標に基づく枝刈りを行いながら前方/後方伝播によって密なマスクを生成する。
- EPIC-KITCHENSの名詞クラスをクラスタリング・拡張してVISORの257エンティティクラスをカバーし、手と手袋を含め、手特有の関係(接触、側)を追加する。
- 手と物体が接触した場合の関係を手(および手袋)と接触対象物へ結び付けてアノテーションし、網羅性とオクルージョンをマークして堅牢なベンチマークを作成する。
実験結果
リサーチクエスチョン
- RQ1エゴセントリックな台所動画において、長いオブジェクトセグメント列をアクション間で信頼して追跡できるか?
- RQ2手と物体の接触およびアクティブオブジェクトの関係を、単一フレームや短い連続からどれだけ効果的にセグメンテーション・定量化できるか?
- RQ3長期的な視覚的推論は、後半に観察される物体の起源や出所をどの程度特定できるか?
- RQ4VOS、HOS、WDTCF の3つの新しい VISOR ベンチマークにおける課題とベースラインは何か?
主な発見
- VISORは、未編集のEPIC-KITCHENS映像36時間にわたって、手、アクティブオブジェクト、257のエンティティクラスのピクセルレベルマスクと密な補間の大規模セットを提供します。
- 3つのベンチマークを定義: より長い連続に対する半教師ありビデオオブジェクトセグメンテーション、手と物体の接触を対象とするハンドオブジェクトセグメンテーション関係、長期間にわたって物体を元の容器へ追跡するWDTCF。
- VOSのベースラインSTMは、VISORデータでの事前学習とファインチューニングの影響を示し、VISOR専用のファインチューニングが実質的な向上をもたらす一方、未見キッチンでの一般化は依然として難しい。
- 手のセグメンテーションは頑健ですが、遮蔽、さまざまな物体タイプ、物体カテゴリの長尾分布のため、接触状態の予測や正確な手–物体の結びつきを予測することは依然として困難です。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。