QUICK REVIEW

[论文解读] Cross-Domain Complementary Learning with Synthetic Data for Multi-Person Part Segmentation.

Kevin Lin, Lijuan Wang|arXiv (Cornell University)|Jul 11, 2019

Human Pose and Action Recognition参考文献 50被引用 7

一句话总结

本文提出了一种跨域互补学习方法，利用具有完美像素级标签的合成数据与具有丰富视觉变化的真实数据，训练多人姿态分割模型，而无需任何人工标注的真实分割标签。通过使用人体姿态估计作为域对齐的桥梁，该方法在Pascal-Person-Parts和COCO-DensePose上实现了最先进性能，甚至能泛化到野外场景中新型关键点预测。

ABSTRACT

The success of supervised deep learning depends on the training labels. However, data labeling at pixel-level is very expensive, and people have been exploring synthetic data as an alternative. Even though it is easy to generate labels for synthetic data, the quality gap makes it challenging to transfer knowledge from synthetic data to real data. In this paper, we propose a novel technique, called cross-domain complementary learning that takes advantage of the rich variations of real data and the easily obtainable labels of synthetic data to learn multi-person part segmentation on real images without any human-annotated segmentation labels. To make sure the synthetic data and real data are aligned in a common latent space, we use an auxiliary task of human pose estimation to bridge the two domains. Without any real part segmentation training data, our method performs comparably to several supervised state-of-the-art approaches which require real part segmentation training data on Pascal-Person-Parts and COCO-DensePose datasets. We further demonstrate the generalizability of our method on predicting novel keypoints in the wild where no real data labels are available for the novel keypoints.

研究动机与目标

解决真实图像中多人姿态分割像素级标注的高昂成本问题。
弥合具有完美标签的合成数据与具有丰富视觉变化的真实数据之间的域差距，以实现有效的知识迁移。
实现在无需任何真实人工标注分割数据的情况下训练姿态分割模型。
展示在无标注数据条件下，对真实世界场景中新型关键点预测的泛化能力。

提出的方法

提出一种跨域互补学习框架，联合优化合成数据与真实数据，以提升姿态分割性能。
使用人体姿态估计作为辅助任务，对齐合成域与真实域之间的潜在空间。
端到端地在合成数据（具有真实部分标签）和真实数据（通过姿态估计提供弱监督）上训练单一模型。
利用真实图像中的丰富外观变化提升泛化能力，同时受益于精确的合成标签。
通过姿态估计预测引导的特征空间投影实现域对齐。
采用多任务学习设置，联合训练姿态分割与姿态估计，以增强特征表示能力。

实验结果

研究问题

RQ1能否有效利用具有完美标签的合成数据，在无需真实人工标注标签的情况下训练姿态分割模型？
RQ2如何弥合合成数据与真实数据之间的域差距，以实现知识迁移？
RQ3仅在合成数据和具有姿态监督的真实图像上训练的模型，能否泛化到野外场景中未见的关键点配置？
RQ4跨域互补学习是否能达到依赖真实分割标注的监督最先进方法的性能水平？

主要发现

所提方法在Pascal-Person-Parts和COCO-DensePose上实现了最先进性能，且无需任何人工标注的分割标签。
性能与依赖大规模真实部分分割标注的监督最先进方法相当。
模型能够泛化到真实世界图像中未见的关键点预测，且这些关键点无任何标注数据。
将姿态估计作为域对齐信号，显著提升了合成数据与真实数据之间的特征迁移能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。