QUICK REVIEW

[論文レビュー] Detect What You Can: Detecting and Representing Objects using Holistic Models and Body Parts

Xianjie Chen, Roozbeh Mottaghi|arXiv (Cornell University)|Jun 8, 2014

Advanced Image and Video Retrieval Techniques参考文献 21被引用数 92

ひとこと要約

本論文では、検出可能性に基づいて、柔軟に全体的オブジェクトまたは身体部位を動的に検出できる、部分ベースのオブジェクト検出モデルを提案する。完全連結グラフィカルモデルにスイッチ変数を導入することで、信頼性の低いコンponentを分離する。PASCAL VOC 2010の動物カテゴリにおいて、形状変形、部分的隠蔽、低解像度下でも適応的検出を可能にし、新しい完全アノテート済みデータセットを用いて高精度な部位局在を実現することで、最先端手法比で4.1%のAP向上を達成した。

ABSTRACT

Detecting objects becomes difficult when we need to deal with large shape deformation, occlusion and low resolution. We propose a novel approach to i) handle large deformations and partial occlusions in animals (as examples of highly deformable objects), ii) describe them in terms of body parts, and iii) detect them when their body parts are hard to detect (e.g., animals depicted at low resolution). We represent the holistic object and body parts separately and use a fully connected model to arrange templates for the holistic object and body parts. Our model automatically decouples the holistic object or body parts from the model when they are hard to detect. This enables us to represent a large number of holistic object and body part combinations to better deal with different "detectability" patterns caused by deformations, occlusion and/or low resolution. We apply our method to the six animal categories in the PASCAL VOC dataset and show that our method significantly improves state-of-the-art (by 4.1% AP) and provides a richer representation for objects. During training we use annotations for body parts (e.g., head, torso, etc), making use of a new dataset of fully annotated object parts for PASCAL VOC 2010, which provides a mask for each part.

研究の動機と目的

オブジェクト検出における、非常に変形しやすく、隠蔽されたり低解像度の動物を検出する課題に対処すること。
検出可能性に応じて、全体的オブジェクトと身体部位を別々にモデル化し、適応的スイッチングを用いることで検出のロバスト性を向上させること。
境界ボックスよりも豊富なオブジェクト表現を提供するため、頭部、胴体、脚などの身体部位を高精度に局在化すること。
身体部位が検出が困難な場合に、モデルが全体的オブジェクトや信頼性の高い部位に依存できるようにすることで、検出を可能にすること。
PASCAL VOC 2010の6種類の動物カテゴリについて、ピクセル単位のマスクアノテーションを備えた新しいデータセットの開発と公開すること。

提案手法

ノードが全体的オブジェクトおよび身体部位（頭部、胴体、脚）を表す完全連結グラフィカルモデルを用い、エッジは空間的およびスケール関係を符号化する。
各ノードに対してスイッチ変数を導入し、検出不能な場合に全体的オブジェクトまたは身体部位を動的に分離する。
ループを含むグラフ上で推論を実行し、異なる検出可能性パターン間で共有ノードを活用することで、効率性を維持する。
PASCAL VOC 2010用に新たに作成した完全アノテート済みデータセットからの部位レベルのアノテーション（マスク）を用いてモデルを学習する。
検出APを最適化する判別的学習フレームワークを採用し、共同モデリングにより部位局在を可能にする。
可視性ベースではなく検出可能性ベースの戦略を採用することで、変形した体や小さな部位のような検出が困難なコンponentを無視できるようにする。

実験結果

リサーチクエスチョン

RQ1大きな形状変形、部分的隠蔽、低解像度下でも、オブジェクト検出をどのように改善できるか？
RQ2一元的なモデルが、検出可能性に応じて、全体的オブジェクトと身体部位の間で動的に切り替えられるか？
RQ3全体的表現と部位レベル表現の両方をモデル化することで、検出性能の向上とより豊富なオブジェクト記述が達成できるか？
RQ4部位が小さく、隠蔽されたり曖昧な場合でも、部位局在の効果はどの程度高いか？
RQ5可視性ベースや固定部位モデルと比較して、検出可能性ベースのスイッチング機構は優れているか？

主な発見

提案手法は、PASCAL VOC 2010の動物カテゴリにおいて、最先端手法比で4.1%の平均精度（AP）の絶対的向上を達成した。
モデルはDPMよりも7.3%のAP向上、Sup-DPMよりも4.1%のAP向上を達成しており、全体的オブジェクトを含まない簡素化されたバージョンでも同様の性能を示した。
超小形（XS）オブジェクトでは、66.7%の鳥インスタンスと52.5%の羊インスタンスが、全体的オブジェクトのみに依存して検出された。これは、低解像度ケースにおいてもモデルの適応性が優れていることを示している。
猫の頭部局在では73.5%のPOPと77.3%のPCPを達成し、羊の胴体では79.2%のPOPと88.6%のPCPを達成した。これは、明確または安定した部位に対して高い信頼性があることを示している。
犬の脚部局在では28.1%のPOPと44.9%のPCPを達成したが、切断や小形のため中程度の性能にとどまった。
超小形オブジェクトでは、全体的オブジェクトのみの検出可能性パターンが最も効果的であり、66.7%の鳥インスタンスと52.5%の羊インスタンスが、全体的オブジェクトにのみ依存していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。