QUICK REVIEW

[論文レビュー] Cross-Domain Complementary Learning with Synthetic Data for Multi-Person Part Segmentation.

Kevin Lin, Lijuan Wang|arXiv (Cornell University)|Jul 11, 2019

Human Pose and Action Recognition参考文献 50被引用数 7

ひとこと要約

本論文では、完全なピクセル単位のラベルが付いた合成データと、豊富な視覚的変化を持つ実データを活用して、人間のアノテーションが一切不要なマルチペルソンパーツセグメンテーションを学習する、クロスドメイン補完的学習という手法を提案する。人間のポーズ推定をドメイン統合のブリッジとして用いることで、Pascal-Person-PartsおよびCOCO-DensePoseで最先端の性能を達成し、未知のキーポイント予測にも一般化可能である。

ABSTRACT

The success of supervised deep learning depends on the training labels. However, data labeling at pixel-level is very expensive, and people have been exploring synthetic data as an alternative. Even though it is easy to generate labels for synthetic data, the quality gap makes it challenging to transfer knowledge from synthetic data to real data. In this paper, we propose a novel technique, called cross-domain complementary learning that takes advantage of the rich variations of real data and the easily obtainable labels of synthetic data to learn multi-person part segmentation on real images without any human-annotated segmentation labels. To make sure the synthetic data and real data are aligned in a common latent space, we use an auxiliary task of human pose estimation to bridge the two domains. Without any real part segmentation training data, our method performs comparably to several supervised state-of-the-art approaches which require real part segmentation training data on Pascal-Person-Parts and COCO-DensePose datasets. We further demonstrate the generalizability of our method on predicting novel keypoints in the wild where no real data labels are available for the novel keypoints.

研究の動機と目的

実画像におけるマルチペルソンパーツセグメンテーションのピクセルレベルアノテーションにかかる高コストを軽減すること。
完全なラベルが付いた合成データと、豊富な視覚的変化を持つ実データの間のドメインギャップを埋め、効果的な知識の転送を可能にすること。
実際の人のアノテーションによるセグメンテーションデータが一切不要なパーツセグメンテーションモデルの学習を可能にすること。
ラベルなしの実世界のシナリオにおいて、未知のキーポイント予測への一般化を示すこと。

提案手法

合成データと実データの両方で同時に最適化するクロスドメイン補完的学習フレームワークを導入し、パーツセグメンテーションの性能を向上させる。
合成ドメインと実ドメインの潜在空間を統合するために、人間のポーズ推定を補助タスクとして用いる。
合成データには真のパーツラベルを、実データにはポーズ推定からの弱い教師信号を用いて、1つのモデルをエンドツーエンドで学習する。
実画像に含まれる豊富な外観の変化を活用して一般化性能を向上させつつ、正確な合成ラベルの恩恵を受ける。
ポーズ推定の予測に従ってガイドされる特徴空間の射影により、ドメイン統合を実現する。
パーツセグメンテーションとポーズ推定を同時に学習するマルチタスク学習の枠組みを採用し、特徴表現を強化する。

実験結果

リサーチクエスチョン

RQ1完全なラベルが付いた合成データを用いて、実際の人のアノテーションが一切ない状況でパーツセグメンテーションモデルを効果的に学習できるか？
RQ2合成データと実データの間のドメインギャップをどのように埋め、知識の転送を可能にするか？
RQ3合成データと実画像（ポーズの弱い教師信号付き）のみで学習したモデルが、未知のキーポイント構成を含む実世界の画像において一般化できるか？
RQ4クロスドメイン補完的学習は、実際のセグメンテーションアノテーションに依存する教師ありSOTA手法と同等の性能を達成できるか？

主な発見

提案手法は、人間のアノテーションが一切不要な状況で、Pascal-Person-PartsおよびCOCO-DensePoseで最先端の性能を達成した。
大規模な実際のパーツセグメンテーションアノテーションを必要とする教師ありSOTA手法と同等の性能を示した。
ラベルなしのキーポイントに対して、実世界の画像において新しいキーポイントを予測する能力を示した。
ポーズ推定をドメイン統合の信号として用いることで、合成データと実データ間の特徴転送が顕著に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。