QUICK REVIEW

[论文解读] MVOR: A Multi-view RGB-D Operating Room Dataset for 2D and 3D Human Pose Estimation

Vinkle Srivastav, Thibaut Issenhuth|arXiv (Cornell University)|Aug 24, 2018

Surgical Simulation and Training被引用 26

一句话总结

本论文提出了MVOR，这是首个在混合手术室中真实临床干预过程中录制的公开多视角RGB-D数据集，包含同步的3D摄像头数据、2D/3D人体姿态标注以及边界框。该数据集可支持在真实世界挑战（如遮挡和杂乱）下的2D与3D多人姿态估计评估，基线结果表明性能仍有显著提升空间，且匿名化模糊处理对性能影响极小。

ABSTRACT

Person detection and pose estimation is a key requirement to develop intelligent context-aware assistance systems. To foster the development of human pose estimation methods and their applications in the Operating Room (OR), we release the Multi-View Operating Room (MVOR) dataset, the first public dataset recorded during real clinical interventions. It consists of 732 synchronized multi-view frames recorded by three RGB-D cameras in a hybrid OR. It also includes the visual challenges present in such environments, such as occlusions and clutter. We provide camera calibration parameters, color and depth frames, human bounding boxes, and 2D/3D pose annotations. In this paper, we present the dataset, its annotations, as well as baseline results from several recent person detection and 2D/3D pose estimation methods. Since we need to blur some parts of the images to hide identity and nudity in the released dataset, we also present a comparative study of how the baselines have been impacted by the blurring. Results show a large margin for improvement and suggest that the MVOR dataset can be useful to compare the performance of the different methods.

研究动机与目标

解决复杂手术环境中缺乏真实世界、临床记录的用于人体姿态估计的数据集的问题。
提供一个基准数据集，捕捉具有固有视觉挑战（如遮挡、杂乱和动态运动）的真实手术干预过程。
支持开发能够超越受控、类似演播室环境数据集的鲁棒2D与3D姿态估计方法。
评估匿名化（模糊处理）对姿态估计性能的影响，确保在不造成显著性能损失的前提下保护数据隐私。
实现对最先进方法在真实临床数据上的比较评估，推动上下文感知的手术辅助系统发展。

提出的方法

在真实介入手术过程中，使用三台吊装的RGB-D摄像头（Asus Xtion Pro）捕获732帧同步多视角图像。
以20 FPS的帧率采集彩色与深度图像，分辨率为640×480，完成相机标定并使用刚性变换将数据统一到全局坐标系。
在多个视角中对4,699个行人边界框、2,926个2D上半身姿态以及1,061个3D上半身姿态进行标注。
对患者身份和裸露部位实施选择性模糊处理，以最小化对计算机视觉算法的影响。
在模糊图像与原始图像上评估多种最先进2D与3D姿态估计模型（如OpenPose、AlphaPose、Deep3DPS、MV3DReg）。
使用标准指标（如PCK、MPJPE、AP与AR）评估在不同视角可见性水平下的检测与姿态估计性能。

实验结果

研究问题

RQ1与受控数据集相比，2D与3D姿态估计模型在真实手术室数据上的性能退化程度如何？
RQ2为实现匿名化而进行的图像模糊处理，在复杂手术场景中对姿态估计精度的影响有多大？
RQ3多视角融合在遮挡与杂乱环境中如何提升3D姿态估计性能？
RQ4现有最先进方法能否泛化到具有高视觉复杂性与动态交互的临床真实数据？
RQ5视角数量（单视角、双视角或三视角）对多人场景中3D姿态估计精度的影响如何？

主要发现

MVOR数据集包含732帧来自真实临床干预的多视角图像，包含4,699个边界框、2,926个2D姿态与1,061个3D姿态。
使用AlphaPose进行基线2D姿态估计，在模糊图像上达到76.2%的PCK，在原始图像上为75.8%，表明模糊处理对性能影响极小。
使用MV3DReg进行3D姿态估计，在三视角数据上平均MPJPE为10.0 cm，肩部关节降低至4.9 cm，证明多视角输入的优势。
使用Faster R-CNN进行行人检测，在原始图像上AP为52.3%，在模糊图像上为50.4%，AR值也仅出现微小下降。
对比研究证实，模糊处理对姿态估计性能影响可忽略，验证了该数据集在隐私保护研究中的实用性。
结果表明性能提升空间巨大，尤其在3D姿态估计方面，凸显了真实手术室环境带来的挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。