Skip to main content
QUICK REVIEW

[論文レビュー] Instance-level Human Parsing via Part Grouping Network

Ke Gong, Xiaodan Liang|arXiv (Cornell University)|Aug 1, 2018
Advanced Neural Network Applications参考文献 39被引用数 25
ひとこと要約

本論文は、1回のパスで複数人の人物を処理可能な、検出不要なインスタンスレベル人体パーツ解析のためのパーツグループ化ネットワーク(PGN)を提案する。統合的でエンド・トゥ・エンドのフレームワークにおいて、意味的パーツセグメンテーションとインスタンスに依存するエッジ検出を同時に最適化することで、単一のネットワークで複数人の人物の解析を実現する。本手法は、PASCAL-Person-Partと38,280枚のマルチペルソン画像を含む新しい大規模なCIHPベンチマークの両方で最先端の性能を達成した。

ABSTRACT

Instance-level human parsing towards real-world human analysis scenarios is still under-explored due to the absence of sufficient data resources and technical difficulty in parsing multiple instances in a single pass. Several related works all follow the "parsing-by-detection" pipeline that heavily relies on separately trained detection models to localize instances and then performs human parsing for each instance sequentially. Nonetheless, two discrepant optimization targets of detection and parsing lead to suboptimal representation learning and error accumulation for final results. In this work, we make the first attempt to explore a detection-free Part Grouping Network (PGN) for efficiently parsing multiple people in an image in a single pass. Our PGN reformulates instance-level human parsing as two twinned sub-tasks that can be jointly learned and mutually refined via a unified network: 1) semantic part segmentation for assigning each pixel as a human part (e.g., face, arms); 2) instance-aware edge detection to group semantic parts into distinct person instances. Thus the shared intermediate representation would be endowed with capabilities in both characterizing fine-grained parts and inferring instance belongings of each part. Finally, a simple instance partition process is employed to get final results during inference. We conducted experiments on PASCAL-Person-Part dataset and our PGN outperforms all state-of-the-art methods. Furthermore, we show its superiority on a newly collected multi-person parsing dataset (CIHP) including 38,280 diverse images, which is the largest dataset so far and can facilitate more advanced human analysis. The CIHP benchmark and our source code are available at http://sysu-hcp.net/lip/.

研究の動機と目的

  • 複数人で多様な人物インスタンスが存在する実世界のシナリオにおけるインスタンスレベル人体パーツ解析の課題に対処すること。
  • 検出とセグメンテーションの間で誤差が蓄積されやすく、最適化が一貫しない既存の「検出による解析」パイプラインの限界を克服すること。
  • 意味的パーツセグメンテーションとインスタンスに依存するエッジ検出を同時に学習する統合的でエンド・トゥ・エンドのフレームワークを構築し、より良い表現学習を実現すること。
  • 38,280枚のマルチペルソン画像を含む、多様で大規模なベンチマーク(CIHP)を提供し、先進的な人体分析研究を支援すること。

提案手法

  • PGNは、インスタンスレベル人体パーツ解析を、意味的パーツセグメンテーションとインスタンスに依存するエッジ検出という2つの関連するサブタスクに定式化し、統一されたネットワーク内で同時に学習する。
  • 共有バックボーンネットワークが、パーツレベルとインスタンスレベルのグループ化タスクをサポートする中間特徴を学習する。
  • 2つの並列ブランチが、それぞれ意味的パーツラベルとインスタンス境界(エッジ)を予測し、共有された文脈的表現を利用する。
  • リファインメントブランチにより、相補的な文脈的情報を活用してセグメンテーションとエッジ検出の相互強化を実現する。
  • 効率的なインスタンス分割プロセスにより、予測されたインスタンスに依存するエッジに基づいて意味的パーツをグループ化し、最終的なインスタンスレベルの結果を生成する。
  • パーツセグメンテーションとエッジ検出の目的関数を統合した損失関数を用いて、エンド・トゥ・エンドで訓練する。

実験結果

リサーチクエスチョン

  • RQ1検出不要で統合的なネットワークが、意味的パーツセグメンテーションとインスタンスに依存するエッジ検出を同時に最適化することで、インスタンスレベル人体パーツ解析の性能向上を達成できるか?
  • RQ2分離された検出と解析パイプラインと比較して、セグメンテーションとエッジ検出の共同最適化が誤差蓄積をどのように軽減するか?
  • RQ3セグメンテーションとエッジ検出の相互リファインメントが、困難なマルチペルソンで実世界のシナリオにおける性能をどの程度向上できるか?
  • RQ4提案されたグループ化アルゴリズムは、パーツとエッジの予測から正確なインスタンスレベルの結果を生成するためにどの程度有効か?

主な発見

  • PGNはPASCAL-Person-Partデータセットで最先端の性能を達成し、インスタンスレベル人体パーツ解析において55.8%の平均IoUと46.0%のOISを達成した。
  • 新たに導入された38,280枚の多様な画像を含むCIHPベンチマークでも、PGNは55.8%の平均IoUと46.0%のOISを達成し、すべての先行手法を上回った。
  • アブレーションスタディの結果、リファインメントブランチが導入されたモデルは、リファインメントなしのモデルと比較して平均IoUが2.3%向上した。
  • グループ化アルゴリズムは顕著な効果を示し、PGN(w/o grouping)では平均IoUが32.9%に低下し、最終的なインスタンス割り当てにおいて極めて重要な役割を果たしていることが示された。
  • エッジ検出ブランチ単体でも45.5%のODSを達成しており、セグメンテーションがなくても強固な性能を示しており、エッジ予測タスクの頑健性を裏付けている。
  • 共同学習を備えた統合ネットワークは、単一タスクモデルを上回り、共有表現学習がセグメンテーションとエッジ検出の両方の性能向上に寄与することを実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。