QUICK REVIEW

[论文解读] Crossing Nets: Combining GANs and VAEs with a Shared Latent Space for Hand Pose Estimation

Chengde Wan, Thomas Probst|arXiv (Cornell University)|Feb 11, 2017

Human Pose and Action Recognition参考文献 49被引用 26

一句话总结

本文提出了一种半监督的三维手部姿态估计方法，通过在共享潜在空间中结合变分自编码器（VAE）用于三维手部姿态和生成对抗网络（GAN）用于深度图像，实现端到端训练并利用未标注数据。通过联合优化用于姿态回归、深度图真实感以及潜在空间平滑度的判别器，该模型实现了每秒90帧的实时推理（CPU上），并在三个基准测试中达到最先进性能，尤其在数据量少和视角挑战较大的情况下优于以往方法。

ABSTRACT

State-of-the-art methods for 3D hand pose estimation from depth images require large amounts of annotated training data. We propose to model the statistical relationships of 3D hand poses and corresponding depth images using two deep generative models with a shared latent space. By design, our architecture allows for learning from unlabeled image data in a semi-supervised manner. Assuming a one-to-one mapping between a pose and a depth map, any given point in the shared latent space can be projected into both a hand pose and a corresponding depth map. Regressing the hand pose can then be done by learning a discriminator to estimate the posterior of the latent pose given some depth maps. To improve generalization and to better exploit unlabeled depth maps, we jointly train a generator and a discriminator. At each iteration, the generator is updated with the back-propagated gradient from the discriminator to synthesize realistic depth maps of the articulated hand, while the discriminator benefits from an augmented training set of synthesized and unlabeled samples. The proposed discriminator network architecture is highly efficient and runs at 90 FPS on the CPU with accuracies comparable or better than state-of-art on 3 publicly available benchmarks.

研究动机与目标

解决基于深度图像的手部追踪中三维手部姿态标注数据稀缺的问题。
从无标注深度图像中实现半监督学习，以提升泛化能力并减少对昂贵标注的依赖。
通过共享潜在空间对三维手部姿态与深度图的联合分布进行建模，以提升姿态估计性能。
开发一种计算高效的判别器，实现实时推理的同时保持高精度。
证明基于GAN的数据增强与潜在空间正则化相结合的多任务学习可提升姿态估计性能，尤其在标注数据有限时表现更优。

提出的方法

在变分自编码器（用于三维手部姿态参数）与生成对抗网络（用于深度图像）之间学习共享潜在空间，实现从同一潜在向量双向生成姿态与深度图。
判别器在多任务设置下进行训练：(1) 区分真实与生成的深度图，(2) 衡量潜在空间中深度图的相似性，(3) 从深度图像回归三维手部姿态。
引入一种新颖的距离约束（Lsmo），以在潜在空间中强制实现平滑插值，确保随机行走过程中姿态与外观过渡的合理性。
生成器通过对抗损失（Lgan）进行训练，以从随机噪声生成逼真的深度图，而判别器则同时从真实样本与合成样本中获益。
整个网络通过反向传播实现端到端训练，判别器的后验估计任务受益于标注与未标注数据。
判别器设计为计算高效，可在CPU上实现每秒90帧，支持实时推理。

实验结果

研究问题

RQ1VAE与GAN之间的共享潜在空间是否能提升基于深度图像的三维手部姿态估计性能？
RQ2如何在半监督设置下利用基于GAN的数据合成与未标注数据，实现对连续实值姿态回归的优化？
RQ3与直接后验估计相比，采用对抗损失、潜在空间平滑性与姿态回归的多任务训练是否能提升泛化能力与准确性？
RQ4高度高效的判别器是否能在CPU上实现实时推理的同时达到最先进性能？
RQ5该方法在低数据量设置与大视角变化条件下表现如何？

主要发现

所提方法在三个公开基准（NYU、MSRA、ICVL）上达到最先进性能，优于以往方法，尤其在较高误差阈值（≥30mm）下表现更优。
在NYU数据集上，该方法显著优于Sinha等人[34]与Oberweger等人[23]，尤其在视角变化鲁棒性方面表现突出。
在ICVL数据集上，该方法在误差阈值≥30mm时较Oberweger等人复杂的优化方法提升2%。
模型在CPU上实现90 FPS，证明了其具备实时推理能力，且得益于高度高效的判别器架构。
消融实验表明，平滑损失（Lsmo）与GAN损失（Lgan）均至关重要，移除任一损失均导致性能显著下降。
即使仅使用2%的标注数据，该方法仍优于从零开始训练，验证了利用未标注数据与合成数据进行半监督学习的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。