QUICK REVIEW

[論文レビュー] MVOR: A Multi-view RGB-D Operating Room Dataset for 2D and 3D Human Pose Estimation

Vinkle Srivastav, Thibaut Issenhuth|arXiv (Cornell University)|Aug 24, 2018

Surgical Simulation and Training被引用数 26

ひとこと要約

本論文は、ハイブリッド手術室で実際の臨床的介入中に記録された、最初の公開マルチビューRGB-DデータセットであるMVORを紹介する。本データセットには同期された3Dカメラデータ、2D/3Dヒューマンポーズアノテーション、バウンディングボックスが含まれており、遮蔽やごみの混在といった現実世界の課題に直面した2Dおよび3Dマルチペルソンポーズ推定の評価を可能にする。ベースライン結果は、匿名化によるぼかし処理による性能低下が最小限である一方で、大幅な改善余地があることを示している。

ABSTRACT

Person detection and pose estimation is a key requirement to develop intelligent context-aware assistance systems. To foster the development of human pose estimation methods and their applications in the Operating Room (OR), we release the Multi-View Operating Room (MVOR) dataset, the first public dataset recorded during real clinical interventions. It consists of 732 synchronized multi-view frames recorded by three RGB-D cameras in a hybrid OR. It also includes the visual challenges present in such environments, such as occlusions and clutter. We provide camera calibration parameters, color and depth frames, human bounding boxes, and 2D/3D pose annotations. In this paper, we present the dataset, its annotations, as well as baseline results from several recent person detection and 2D/3D pose estimation methods. Since we need to blur some parts of the images to hide identity and nudity in the released dataset, we also present a comparative study of how the baselines have been impacted by the blurring. Results show a large margin for improvement and suggest that the MVOR dataset can be useful to compare the performance of the different methods.

研究の動機と目的

複雑な外科的環境におけるヒューマンポーズ推定のための、現実世界で記録された臨床的データセットが不足している問題に対処すること。
遮蔽、ごみ、動的な動きといった内在的な視覚的課題を伴う、実際の手術介入を捉えたベンチマークデータセットを提供すること。
制御されたスタジオ環境にとどまらない、実世界のデータに一般化可能な堅牢な2Dおよび3Dポーズ推定手法の開発を支援すること。
匿名化（ぼかし処理）がポーズ推定性能に与える影響を評価し、データプライバシーを確保しつつも、大きな性能損失を生じさせないこと。
最先端の手法を、実臨床データ上で比較評価可能とし、文脈に配慮した手術支援システムの発展を促進すること。

提案手法

実際の画像介入手術中に、天井設置の3台のRGB-Dカメラ（Asus Xtion Pro）から732フレームの同期マルチビュー画像を収集した。
20 FPSの速度で640×480解像度のカラー画像および深度画像を収集し、カメラキャリブレーションと剛体変換によりグローバル座標系に統合した。
複数のビューにわたって、4,699個のヒューマンバウンディングボックス、2,926個の2D上半身ポーズ、1,061個の3D上半身ポーズをアノテーションした。
患者の個人識別および露出を匿名化するため、選択的ぼかし処理を適用し、コンピュータビジョンアルゴリズムへの影響を最小限に抑えた。
OpenPose、AlphaPose、Deep3DPS、MV3DRegなどの最先端の2Dおよび3Dポーズ推定モデルを、ぼかし処理済みおよび元の画像の両方で評価した。
PCK、MPJPE、AP、ARといった標準的な指標を用い、視認性の異なる複数の視点における検出およびポーズ推定性能を評価した。

実験結果

リサーチクエスチョン

RQ12Dおよび3Dポーズ推定モデルの性能は、制御されたデータセットと比較して、実際の手術室データではどの程度低下するか？
RQ2匿名化のための画像ぼかし処理が、複雑な外科的シーンにおけるヒューマンポーズ推定の精度に、どの程度の影響を与えるか？
RQ3マルチビュー融合は、遮蔽やごみの混在する環境における3Dポーズ推定をどの程度向上させるか？
RQ4既存の最先端手法は、高い視覚的複雑性と動的な相互作用を伴う実臨床データに一般化できるか？
RQ51視点、2視点、3視点の視点数の違いが、マルチペルソンシナリオにおける3Dポーズ推定の精度に与える影響は何か？

主な発見

MVORデータセットには、実臨床的介入から得られた732フレームのマルチビュー画像が含まれており、4,699個のバウンディングボックス、2,926個の2Dポーズ、1,061個の3Dポーズが含まれる。
AlphaPoseを用いたベースライン2Dポーズ推定では、ぼかし処理済み画像で76.2%のPCK、元の画像で75.8%のPCKを達成し、ぼかし処理による性能低下が最小限であることが示された。
MV3DRegを用いた3Dポーズ推定では、3視点データで平均MPJPEが10.0 cmであり、肩関節では4.9 cmまで低下し、マルチビュー入力の利点が明確に示された。
Faster R-CNNを用いた人物検出では、元の画像で52.3%のAP、ぼかし処理済み画像で50.4%のAPを達成し、AR値の低下もわずかであった。
比較研究により、ぼかし処理がポーズ推定性能にほとんど影響しないことが確認され、本データセットがプライバシー保護型研究に有効であることが裏付けられた。
結果から、特に3Dポーズ推定において大幅な改善余地があることが示され、実際の手術室環境が抱える課題の深刻さが浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。