QUICK REVIEW

[論文レビュー] Occluded Video Instance Segmentation

Jiyang Qi|arXiv (Cornell University)|Jan 1, 2024

Multimodal Machine Learning Applications参考文献 32被引用数 26

ひとこと要約

本稿では、25のカテゴリにわたり296kのマスクを含む、遮蔽された動画インスタンスセグメンテーションのための大規模データセットOVISを紹介するとともに、遮蔽されたインスタンスにおける性能向上を図るための時間的特徴補正モジュールを提案する。MaskTrack R-CNNおよびSipMaskに基づく手法は、OVISで15.1 AP、YouTube-VISで35.1 APを達成し、先行する最先端手法を顕著に上回る性能を発揮する。

ABSTRACT

Can our video understanding systems perceive objects when a heavy occlusion exists in a scene? To answer this question, we collect a large-scale dataset called OVIS for occluded video instance segmentation, that is, to simultaneously detect, segment, and track instances in occluded scenes. OVIS consists of 296k high-quality instance masks from 25 semantic categories, where object occlusions usually occur. While our human vision systems can understand those occluded instances by contextual reasoning and association, our experiments suggest that current video understanding systems are not satisfying. On the OVIS dataset, the highest AP achieved by state-of-the-art algorithms is only 14.4, which reveals that we are still at a nascent stage for understanding objects, instances, and videos in a real-world scenario. In experiments, a simple plug-and-play module that performs temporal feature calibration is proposed to complement missing object cues caused by occlusion. Built upon MaskTrack R-CNN and SipMask, we obtain an AP of 15.1 and 14.5 on the OVIS dataset and achieve 32.1 and 35.1 on the YouTube-VIS dataset respectively, a remarkable improvement over the state-of-the-art methods. The OVIS dataset is released at http://songbai.site/ovis , and the project code will be available soon.

研究の動機と目的

遮蔽されたシーンにおける動画理解システムの性能を調査すること。
遮蔽された動画インスタンスセグメンテーションのための大規模かつ高品質なデータセットの収集と公開すること。
遮蔽下での特徴表現を向上させるためのプラグアンドプレイ型モジュールの開発すること。
現在の動画インスタンスセグメンテーションモデルが現実世界の遮蔽状況において果たす限界を評価すること。
時間的特徴補正を用いて、遮蔽動画におけるインスタンスセグメンテーションの正確性を向上させること。

提案手法

著者らは、25のカテゴリにわたり頻繁に遮蔽が発生する296kのインスタンスマスクを含む、OVISと呼ばれる新規データセットを導入する。
遮蔽中における欠落したオブジェクトの手がかりを回復するための、プラグアンドプレイ型の時間的特徴補正モジュールを提案する。
アーキテクチャの大幅な見直しを伴わず、MaskTrack R-CNN や SipMask といった既存のアーキテクチャにモジュールを統合する。
時間的一致性を活用して、フレーム間の情報を集約することで特徴を精緻化する。
時間的領域における長距離の依存関係と文脈的関連性をモデル化することで、特徴表現を強化する。
エンドツーエンドで学習され、推論時に適用されることで、遮蔽下でのセグメンテーション性能を向上させる。

実験結果

リサーチクエスチョン

RQ1現在の動画理解システムは、重度の遮蔽下でも正確にオブジェクトを検出・セグメンテーションできるか？
RQ2最先端の動画インスタンスセグメンテーションモデルの性能は、遮蔽状況下でどのように低下するのか？
RQ3アーキテクチャの変更なしに、単純でプラグアンドプレイ型のモジュールが遮蔽インスタンスの性能向上に寄与できるか？
RQ4時間的特徴補正は、遮蔽中における欠落した手がかりの回復にどのような役割を果たすのか？
RQ5提案手法は、OVIS や YouTube-VIS といった異なるデータセットに一般化できるか？

主な発見

OVISデータセットにおける最先端手法の最高APは14.4にとどまり、さらなる改善の余地が大きいことが示された。
提案された時間的特徴補正モジュールにより、OVISデータセットにおけるAPが15.1に向上し、先行手法に比べ顕著な向上が達成された。
YouTube-VISデータセットでは、MaskTrack R-CNNを用いた場合に32.1 AP、SipMaskを用いた場合に35.1 APを達成し、最先端の結果を上回った。
複雑な再トレーニングを伴わず、単純なプラグアンドプレイ型モジュールにより改善が達成されたことから、有効性が裏付けられた。
結果から、現在のモデルは遮蔽に対して苦戦しており、より優れた時間的・文脈的推論能力の必要性が浮き彫りになった。
OVISデータセットは、http://songbai.site/ovis にて公開され、今後の遮蔽された動画理解分野の研究を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。