[論文レビュー] Holistic, Instance-Level Human Parsing
本稿では、人体検出の結果を条件とする微分可能かつ条件付きランダムフィールド(CRF)を用いて、個体レベルの人体パーツと人体全体を同時にセグメンテーションする、包括的かつエンド・ツー・エンドのディーブラーニングフレームワークを提案する。本手法は、1回の順伝播でインスタンスレベルのパーツおよび人体セグメンテーションにおいて最先端の性能を達成するとともに、カテゴリレベルのパーツセグメンテーションにおいても競争力のある結果を示す。
Object parsing -- the task of decomposing an object into its semantic parts -- has traditionally been formulated as a category-level segmentation problem. Consequently, when there are multiple objects in an image, current methods cannot count the number of objects in the scene, nor can they determine which part belongs to which object. We address this problem by segmenting the parts of objects at an instance-level, such that each pixel in the image is assigned a part label, as well as the identity of the object it belongs to. Moreover, we show how this approach benefits us in obtaining segmentations at coarser granularities as well. Our proposed network is trained end-to-end given detections, and begins with a category-level segmentation module. Thereafter, a differentiable Conditional Random Field, defined over a variable number of instances for every input image, reasons about the identity of each part by associating it with a human detection. In contrast to other approaches, our method can handle the varying number of people in each image and our holistic network produces state-of-the-art results in instance-level part and human segmentation, together with competitive results in category-level part segmentation, all achieved by a single forward-pass through our neural network.
研究の動機と目的
- 既存の人体パース手法がカテゴリレベルでのみ動作し、複数人のシーンで個々の人物に属するパーツを区別できないという制限を解消すること。
- 個体レベルでの人体パーツおよび人体全体のセグメンテーションを同時に実現し、正確なパーツ・トゥ・ペルソンの関連付けを可能にすること。
- 1枚の画像に含まれる人物の数が変動しても対応可能で、不完全または誤検出されたオブジェクト検出結果に対しても耐性を持つ、堅牢なエンド・ツー・エンドでトレーニング可能なネットワークの開発。
- インスタンスレベルのパーツパースが、全体の人体インスタンスセグメンテーション性能を向上させ、先行研究を上回ることの実証。
提案手法
- フレームワークは、完全畳み込みネットワーク(FCN)として実装されたカテゴリレベルのパーツセグメンテーションモジュールから開始される。
- その後、1枚の画像に含まれる可変な数の人体インスタンスを考慮し、人体検出ボクシングボックスを入力として用いる、微分可能でインスタンスに依存する条件付きランダムフィールド(CRF)を採用する。
- CRFは、学習可能で微分可能なメッセージパッシング機構を通じて、各セグメンテーションされたパーツを特定の人体インスタンスに関連付けることで、パーツからインスタンスへの割り当てを最適化する。
- 全ネットワークは、1枚の画像に含まれるインスタンス数が可変であるのを考慮した新しい損失関数を用いてエンド・ツー・エンドで学習される。
- モデルは、各人物ごとのすべてのパーツの和集合によりインスタンスレベルの人体セグメンテーションを出力するが、後処理は不要である。
- CRFのグローバルな推論能力のおかげで、誤検出や部分的なボクシングボックスに対しても耐性を示す。
実験結果
リサーチクエスチョン
- RQ1インスタンスレベルの人体パースを、パーツと人体のセグメンテーションを統合的に処理する、包括的かつエンド・ツー・エンドで微分可能な方法として実現可能か?
- RQ2パーツからインスタンスへの関連付けをモデル化することで、標準的なインスタンスセグメンテーション手法と比較して、人体インスタンスセグメンテーションの精度がどの程度向上するか?
- RQ3パーツレベルの構造を学習することで、特に隠蔽や混雑したシーンにおいて、人体全体のセグメンテーション性能がどの程度向上するか?
- RQ41回の順伝播で、アーキテクチャ的・推論的複雑度のトレードオフを伴わずに、カテゴリレベルとインスタンスレベルのセグメンテーションを両方出力可能か?
主な発見
- 本手法は、IoU閾値0.5における平均APが61.0%を達成し、以前の最先端手法を大きく上回った。
- インスタンスレベルのパーツセグメンテーションでは、IoU閾値0.5におけるAPが70.2%に達し、Arnabら[2](57.4%)やR2-IOS[31](60.4%)といった先行手法を上回った。
- カテゴリレベルのパーツセグメンテーション性能は66.3%の平均IoUを達成し、最先端手法と同等の性能であり、初期のカテゴリレベルモジュールに比べ0.4%の向上を示した。
- 検出結果が部分的または不完全であっても、CRFのグローバルな推論能力のおかげで、パーツのセグメンテーションが成功している。
- インスタンスCRFによるグローバルな推論により、重なっている人物がいる混雑したシーンでも一般化性能が向上した。
- 人体インスタンスセグメンテーション性能の向上は、トレーニング段階でパーツレベルの関係性およびパーツからインスタンスへの関連付けを明示的にモデル化したことに起因する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。