[论文解读] End-to-End Human Pose and Mesh Reconstruction with Transformers
METRO 使用基于 Transformer 的编码器结合 Masked Vertex Modeling,从单张图像联合预测 3D 身体关节和网格顶点,在 3DPW、Human3.6M 和 FreiHAND 上取得最先进的结果,而不依赖参数化网格模型。
We present a new method, called MEsh TRansfOrmer (METRO), to reconstruct 3D human pose and mesh vertices from a single image. Our method uses a transformer encoder to jointly model vertex-vertex and vertex-joint interactions, and outputs 3D joint coordinates and mesh vertices simultaneously. Compared to existing techniques that regress pose and shape parameters, METRO does not rely on any parametric mesh models like SMPL, thus it can be easily extended to other objects such as hands. We further relax the mesh topology and allow the transformer self-attention mechanism to freely attend between any two vertices, making it possible to learn non-local relationships among mesh vertices and joints. With the proposed masked vertex modeling, our method is more robust and effective in handling challenging situations like partial occlusions. METRO generates new state-of-the-art results for human mesh reconstruction on the public Human3.6M and 3DPW datasets. Moreover, we demonstrate the generalizability of METRO to 3D hand reconstruction in the wild, outperforming existing state-of-the-art methods on FreiHAND dataset. Code and pre-trained models are available at https://github.com/microsoft/MeshTransformer.
研究动机与目标
- 在单目图像上实现对 3D 人体姿态和网格重建的鲁棒性,超越如 SMPL 等参数化模型的限制。
- 建模关节与网格顶点之间的全局(非局部)交互,以应对大幅度姿态变化和遮挡。
- 在一个端到端框架中同时预测 3D 关节坐标和网格顶点。
- 通过自注意力学习连接关系,消除对固定网格拓扑的依赖。
- 证明框架对重建 3D 手部及其他网格的泛化能力,而不仅限于人体。
提出的方法
- 使用一个 CNN 提取图像特征(在 ImageNet 上进行预训练)。
- 引入一个多层 Transformer 编码器,采用渐进的维度降维以输出关节和顶点的 3D 坐标。
- 通过将图像特征与模板网格坐标级联来形成关节和顶点查询,从而应用位置编码。
- 通过 Masked Vertex Modeling (MVM),随机掩盖输入查询,使 Transformer 学会利用剩余线索推断所有关节/顶点。
- 采用混合数据策略进行训练,结合 3D/2D 注释,顶点和关节的 L1 损失、通过矩阵 G 回归得到的 L1 损失的关节,以及 2D 投影损失。
- 通过可学习的 MLP 将粗网格(431 个顶点)上采样到完整网格(对 SMPL 拓扑为 6890 顶点),实现端到端训练。
实验结果
研究问题
- RQ1变换器编码器是否能够有效建模网格顶点与身体关节之间的全局交互,以实现从单图像的准确 3D 重建?
- RQ2Masked Vertex Modeling 相比于拓扑固定的图方法,是否能提升对遮挡和非局部依赖的鲁棒性?
- RQ3该框架是否可推广到非人体网格(如 3D 手部),而无需依赖参数化的人体模型?
- RQ4骨干网络选择和输入特征分辨率对重建精度的影响有哪些?
主要发现
- METRO 在 3DPW 的 MPVE、MPJPE、PA-MPJPE 达到最新水平(分别为 88.2、77.1、47.9),在 Human3.6M 的表现为 54.0、36.7(在报告设置中) 。
- METRO 即使在混合 3D/2D 数据训练下也优于以往方法,在 3DPW 和 Human3.6M 上表现出对遮挡和姿态变化的鲁棒性。
- 在消融研究中,Masked Vertex Modeling 显著提升结果(例如 Human3.6M 上 PA-MPJPE 从 39.1 提升到 36.7)。
- METRO 在 FreiHAND 排行榜上取得第一名(手部重建),且未使用外部数据,明显优于此前方法。
- 自注意力可视化显示出有意义的非局部交互(例如预测手腕时依赖于头部/手部/足部区域的线索),支持非局部建模的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。