QUICK REVIEW

[論文レビュー] Multiple-Human Parsing in the Wild

Jianshu Li, Jian Zhao|arXiv (Cornell University)|May 19, 2017

Multimodal Machine Learning Applications参考文献 47被引用数 61

ひとこと要約

論文は Multi-Human Parsing (MHP) データセットと新規 MH-Parser モデルを紹介します。これは unconstrained real-world scenes で複数の人間をグローバルなパーシングとインスタンス認識パーシングを行い、Graph-GAN に基づくアフィニティ学習アプローチを介して実現します。

ABSTRACT

Human parsing is attracting increasing research attention. In this work, we aim to push the frontier of human parsing by introducing the problem of multi-human parsing in the wild. Existing works on human parsing mainly tackle single-person scenarios, which deviates from real-world applications where multiple persons are present simultaneously with interaction and occlusion. To address the multi-human parsing problem, we introduce a new multi-human parsing (MHP) dataset and a novel multi-human parsing model named MH-Parser. The MHP dataset contains multiple persons captured in real-world scenes with pixel-level fine-grained semantic annotations in an instance-aware setting. The MH-Parser generates global parsing maps and person instance masks simultaneously in a bottom-up fashion with the help of a new Graph-GAN model. We envision that the MHP dataset will serve as a valuable data resource to develop new multi-human parsing models, and the MH-Parser offers a strong baseline to drive future research for multi-human parsing in the wild.

研究の動機と目的

実世界のシナリオで複数の相互作用する人物を反映するために、マルチヒューマンパーシング問題を定義する。
ピクセルレベルでインスタンス認識を持つ18パートの大規模 MHP データセットを作成する。
外部検出器に依存せず、グローバルパーシングマップとインスタンスマスクを生成するMH-Parserを提案する。
Graph-GAN を活用して高次の関係性を学習し、絡み合う人物のパーシングを改善する。

提案手法

ResNet-101 ベースの表現学習を用いて、グローバルなインスタンス非依存パーシングマップ G_seg を生成する。
スーパーピクセル上のペアワイズアフィニティグラフを定義し、アフィニティネットでアフィニティマップ A を予測する。
高次の関係を捉え、アフィニティグラフを洗練させるために GCN ベースの判別器を備えた Graph-GAN を導入する。
予測された A によってインスタンスを識別するグローバルの適合マップ M を計算し、固有ベクトル分光クラスタリングでクラスタを導出する。
アフィニティグラフに基づく unary および pairwise 項を取り込む CRF でインスタンスマスクを精緻化する。
セグメンテーション損失、L2 アフィニティ損失、GAN 損失の組み合わせで訓練し、ピクセルレベルのインスタンス認識パーシングを得るためのテストを行う。

実験結果

リサーチクエスチョン

RQ1野生環境で、複数の相互作用・遮蔽された人物が存在する状況で、マルチヒューマンパーシングをどのように定式化できるか？
RQ2グラフ構造のアフィニティ学習を用いたボトムアップのアプローチは、近接して絡み合う人のインスタンスを検出器ベースの方法よりも優れて分離できるか？
RQ3グラフ構造のアフィニティに対して学習された Graph-GAN は、インスタンス間の体部分・衣服の高次関係性のモデリングを改善するか？
RQ4MHP データセット上で、グローバルパーシングとインスタンスクラスタリングを結合し、その後の CRF 精練の有効性はどうか？

主な発見

MH-Parser は MHP データセットにおいて AP_p および PCP 指標で Mask R-CNN および Discriminative Loss と競合する性能を達成する。
インスタンスの近接性が高い難易度のサブセットで、絡み合う人物をより良く処理することで MH-Parser は Mask R-CNN および DL を上回る。
Buffy データセット評価では、MH-Parser は平均 Forward スコア 71.11%、Backward スコア 71.94% を達成（従来手法を上回る）。
ベースラインのアブレーションは GAN 損失の組み込みと精練ステップの恩恵を示し、GT ベースの構成要素はより高いスコアを生み出す（例：GT Global Segmentation により 91.75 AP_p_0.5）。
MHP データセットは 4,980 枚の画像、14,969 人インスタンス、18 パートラベルを含み、マルチヒューマンパーシングに対する実世界の複雑さを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。