[论文解读] OmniPose: A Multi-Scale Framework for Multi-Person Pose Estimation
OmniPose 通过将改进的 HRNet 骨干与新颖的 Waterfall Atrous Spatial Pyramid (WASPv2) 模块以及高斯热图调制相结合,在单次前向通过、端到端框架中实现最先进的多人物2D姿态估计,并提供轻量级的 OmniPose-Lite 变体。
We propose OmniPose, a single-pass, end-to-end trainable framework, that achieves state-of-the-art results for multi-person pose estimation. Using a novel waterfall module, the OmniPose architecture leverages multi-scale feature representations that increase the effectiveness of backbone feature extractors, without the need for post-processing. OmniPose incorporates contextual information across scales and joint localization with Gaussian heatmap modulation at the multi-scale feature extractor to estimate human pose with state-of-the-art accuracy. The multi-scale representations, obtained by the improved waterfall module in OmniPose, leverage the efficiency of progressive filtering in the cascade architecture, while maintaining multi-scale fields-of-view comparable to spatial pyramid configurations. Our results on multiple datasets demonstrate that OmniPose, with an improved HRNet backbone and waterfall module, is a robust and efficient architecture for multi-person pose estimation that achieves state-of-the-art results.
研究动机与目标
- 将多人物2D姿态估计推进到可单次、端到端可训练的网络。
- 利用多尺度特征表示在无需后处理的情况下改进关节定位。
- 通过 WASPv2 模块和高斯热图调制提高效率和准确性。
- 提供适用于移动/嵌入式平台的轻量级变体(OmniPose-Lite)。
提出的方法
- 使用改进的 HRNet 骨干提取高分辨率多尺度特征。
- 引入 WASPv2:一种带有空洞卷积的高级瀑布模块(膨胀系数 [1,6,12,18])以在保持分辨率的同时扩展感受野;将特征提取和解码合并在一个单元中。
- 在插值/反卷积期间应用高斯热图调制以实现亚像素关节定位并减少量化误差。
- 用可分离卷积替代标准卷积以在不牺牲准确性的情况下降低参数量和 GFLOPs。
- 直接从 WASPv2 输出最终热图,无需单独解码器或后处理。
实验结果
研究问题
- RQ1一个多尺度、单次前向架构是否能够在不进行后处理的情况下达到最先进的多人物姿态估计精度?
- RQ2将高分辨率多尺度编码-解码与高斯热图调制结合对关节定位精度有什么影响?
- RQ3与现有的 WASP/HRNet 基线相比,WASPv2 模块对精度和效率有何影响?
- RQ4在保持有竞争力的精度的同时,移动/嵌入式平台是否可行地实现轻量化的 OmniPose-Lite?
主要发现
| 方法 | 输入大小 | Params (M) | GFLOPs | AP | AP50 | AP75 | APM | APL | AR |
|---|---|---|---|---|---|---|---|---|---|
| OmniPose (WASPv2) | 384x288 | 68.1 | 37.9 | 79.5% | 93.6% | 85.9% | 76.0% | 84.6% | 81.9% |
| OmniPose (WASP) | 384x288 | 68.2 | 38.6 | 79.2% | 93.6% | 85.7% | 75.9% | 84.2% | 81.6% |
| DarkPose | 384x288 | 63.6 | 32.9 | 76.8% | 90.6% | 83.2% | 72.8% | 84.0% | 81.7% |
| HRNet | 384x288 | 63.6 | 32.9 | 76.3% | 90.8% | 82.9% | 72.3% | 83.4% | 81.2% |
| OmniPose-Lite | 256x192 | 19.4 | 5.8 | 71.4% | - | - | - | - | - |
- OmniPose 配合 WASPv2 在 MPII 和 COCO 上无需后处理或锚点姿势即可达到最先进的结果(例如 MPII PCKh@0.2 高达 92.3%)。
- 在 COCO 验证集上,OmniPose(WASv2)达到 AP 37.9 和 AP50 79.5%,超过若干先前方法;在 COCO test-dev 上,OmniPose 达到 AP 76.4%。
- OmniPose-Lite 将 GFLOPs 降低 74.3%(22.6 下降至 5.8)和参数量降低 71.4%(67.9M 降至 19.4M),同时保持强大精度,适合移动部署。
- 高斯热图调制通过在解码期间解决插值引起的量化误差来提高定位精度。
- 集成的 WASPv2 解码器在高分辨率直接输出关节热图,减少额外解码步骤的需求。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。