QUICK REVIEW

[論文レビュー] Stereo Correspondence and Reconstruction of Endoscopic Data Challenge

Max Allan, A. Jonathan McLeod|arXiv (Cornell University)|Jan 4, 2021

Advanced Vision and Imaging参考文献 21被引用数 24

ひとこと要約

本論文は、MICCAI 2019におけるステレオ対応および内視鏡データ再構築チャレンジ（SCARED）を紹介し、豚の死体組織に構造化照明を投影した高品質なデータセットを提供することで、密な深度推定を実現する。チャレンジ中に10チームが手法を提出し、上位の手法はテストデータセット2において平均絶対誤差1.10 mmを達成したが、補足的分析により、データセットにキャリブレーション誤差、キネマティクス・ビデオのずれ、および真値-RGBの不整合が存在し、これが精度に影響を与えていたことが明らかになった。

ABSTRACT

The stereo correspondence and reconstruction of endoscopic data sub-challenge was organized during the Endovis challenge at MICCAI 2019 in Shenzhen, China. The task was to perform dense depth estimation using 7 training datasets and 2 test sets of structured light data captured using porcine cadavers. These were provided by a team at Intuitive Surgical. 10 teams participated in the challenge day. This paper contains 3 additional methods which were submitted after the challenge finished as well as a supplemental section from these teams on issues they found with the dataset.

研究の動機と目的

外科的コンピュータビジョンにおける内視鏡深度推定のための高品質で現実世界のデータセットが不足しているという問題に対処すること。
構造化照明を用いた内視鏡画像におけるステレオ対応および密な再構築手法のベンチマークを可能にすること。
臨床に近い条件下で収集された現実的な手術内視鏡データを用いて、最先端の深度推定技術を評価すること。
キャリブレーション誤差、キネマティクス・ビデオのずれ、真値-RGBの不整合といったデータ品質上の問題を特定および文書化すること。

提案手法

データセットは、da Vinci Xi手術ロボットを用い、ステレオ内視鏡とピコプロジェクタを用いて、豚の死体組織に10ビットのグレイコードパターンを投影することで収集された。
キーフレームに構造化照明パターンをキャプチャし、既知のプロジェクタおよびカメラの幾何学的関係を用いて三角測量により3次元点群を再構築した。
各画素の位置を一意なグレイコードパターンで符号化することで、サブピクセル精度のステレオ一致と深度計算が可能になった。
非キーフレームの深度推定には、ロボットの関節位置からのフォワードキネマティクスを用いてフレームを変形した。
ロボットのキネマティクスに依存しないようにするため、SIFT特徴抽出とPnP（Perspective-n-Point）を用いたカメラポーズ推定および点群再投影のための補足パイプラインを提案した。
チャレンジでは、2つのテストデータセットにおける平均絶対深度誤差を用いて手法を評価し、構造化照明の投影による真値と照合した。

実験結果

リサーチクエスチョン

RQ1現実的で構造化照明に基づく内視鏡データセット上で、ステレオ対応および再構築手法の性能はいかがなものか？
RQ2データセット内のキャリブレーションの不正確さやキネマティクス・ビデオの同期誤差は、深度推定性能にどのように影響するか？
RQ3ロボットのフォワードキネマティクスに依存するのではなく、視覚特徴に基づくポーズ推定は、深度再構築の精度を向上させることができるか？
RQ4真値-RGBの不整合および視差オフセットは、内視鏡データの深度推定にどの程度歪みをもたらすか？

主な発見

上位の手法は、テストデータセット2において平均絶対深度誤差1.10 mmを達成し、全体の優勝者はRediminds Inc.のTrevor Zeffiro氏であった。
2番目に優れた手法は、フラウンホーファーHHIのJean-Claude Rosenthalらが提出し、テストデータセット2で平均絶対誤差1.69 mmを記録した。
データセット4および5において顕著なキャリブレーション誤差が確認され、エッジ行列の最適化後でさえも、正規化されたステレオペアにおける対応する特徴のずれが生じていた。
ビデオとロボットのキネマティクスがずれており、RGBビデオが真値深度データに対して数フレーム遅れていた。
データセット8および9では、真値深度マップが対応するRGB画像とずれており、スキャンラインおよび視差オフセットが生じ、モデル性能が低下していた。
SIFTおよびPnPに基づくポーズ推定を用いた補足手法により、ロボットのキネマティクスに依存する度合いが減少し、フレーム間の深度マップの一貫性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。