[論文レビュー] Understanding Humans in Crowded Scenes: Deep Nested Adversarial Learning and A New Benchmark for Multi-Human Parsing
本論文は、25,403枚の画像と58の細かなカテゴリを含む大規模なマルチヒューマンパースィング(MHP v2.0)データセットと、エンドツーエンドのマルチヒューマンパースィングのための新しいDeep Nested Adversarial Network(NAN)を提案します。NAN は、意味的顕著性、インスタンス非依存のパース、インスタンス認識型クラスタリングの3つのGAN風サブネットを含み、入れ子状の対向フレームワークで学習されます。
Despite the noticeable progress in perceptual tasks like detection, instance segmentation and human parsing, computers still perform unsatisfactorily on visually understanding humans in crowded scenes, such as group behavior analysis, person re-identification and autonomous driving, etc. To this end, models need to comprehensively perceive the semantic information and the differences between instances in a multi-human image, which is recently defined as the multi-human parsing task. In this paper, we present a new large-scale database "Multi-Human Parsing (MHP)" for algorithm development and evaluation, and advances the state-of-the-art in understanding humans in crowded scenes. MHP contains 25,403 elaborately annotated images with 58 fine-grained semantic category labels, involving 2-26 persons per image and captured in real-world scenes from various viewpoints, poses, occlusion, interactions and background. We further propose a novel deep Nested Adversarial Network (NAN) model for multi-human parsing. NAN consists of three Generative Adversarial Network (GAN)-like sub-nets, respectively performing semantic saliency prediction, instance-agnostic parsing and instance-aware clustering. These sub-nets form a nested structure and are carefully designed to learn jointly in an end-to-end way. NAN consistently outperforms existing state-of-the-art solutions on our MHP and several other datasets, and serves as a strong baseline to drive the future research for multi-human parsing.
研究の動機と目的
- crowded scenes を越えた検出とインスタンス分割だけでなく、人間を全体として理解することを動機づける。
- 大規模で豊富なアノテーションを持つマルチヒューマンパースィングのベンチマークを提供する。
- 入れ子対向学習設定で、パースとインスタンス差別化を同時に学習する統一的なエンドツーエンドモデルを開発する。
- 実世界の応用に適した、単一パスの効率的なマルチヒューマンパースィングを実現する。
提案手法
- Body parts、衣類、アクセサリの意味カテゴリ58を含む25,403枚の画像を持つ大規模データセットとしてMHP v2.0を提案する。
- 意味的顕著性予測、インスタンス非依存パース、インスタンス認識型クラスタリングの3ブランチGAN風フレームワークとしてNANを導入する。
- 各サブネットは対向損失とタスク特有の損失で訓練され、エンドツーエンドの逆伝播を可能にする入れ子で相互にブーストする構造を持つ。
- 意味的顕著性をパースの前提として利用し、インスタンス非依存パースと組み合わせ、最終的に領域提案なしでインスタンス認識型クラスタリングを実行する。
- ネットワークの初期化、損失項、エンドツーエンド最適化目的を含む訓練詳細を提供する。
- MHP v2.0および他データセットでNANが最先端手法より優れていることを報告する。
実験結果
リサーチクエスチョン
- RQ1混雑したシーンにおいて、ネストされた対向学習フレームワークは全体的なマルチヒューマンパースィングを改善できるか。
- RQ2(MHP v2.0)という大規模で細粒度のデータセットは、オクルージョンと相互作用がある場合においても、インスタンスレベルの身体部位とファッションアイテムのパース学習をより良く支援できるか。
- RQ3エンドツーエンドのNANは heavy pre/post-processing なしで単一のフォワードパスで正確なパースとインスタンス差別化を提供できるか。
- RQ4意味的顕著性の事前情報とインスタンス非依存パースを取り入れることは、インスタンス認識型クラスタリングの性能にどのような影響を与えるか。
主な発見
- NANは、MHP v2.0および他のベンチマーク全体で最先端手法と比べてマルチヒューマンパースィングの性能を上回る。
- 領域提案を必要とせず、単一パスのマルチヒューマンパースィングを競争力のある速度で実現する。
- NANは複数の損失を同時最適化する入れ子状対抗構造を通じて、エンドツーエンド訓練を効果的に示す。
- MHP v2.0データセットは、58カテゴリの広範なアノテーションと、ビューポイント、オクルージョン、相互作用などの実世界の多様性を提供する。
- 実験にはMHP v2.0、MHP v1.0、PASCAL-Person-Part、Buffyでの評価が含まれ、NANの適応性を検証する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。