QUICK REVIEW

[論文レビュー] A Deep Learning Based 6 Degree-of-Freedom Localization Method for Endoscopic Capsule Robots

Mehmet Turan, Yasin Almalıoğlu|arXiv (Cornell University)|May 15, 2017

Gastrointestinal Bleeding Diagnosis and Treatment参考文献 18被引用数 26

ひとこと要約

本論文は、単眼視覚入力のみを用いて、リアルタイムで6自由度（DoF）の内視鏡カプセルロボットの局所化を実現する23層の深層畳み込みニューラルネットワーク（CNN）を提示する。実際のヒトの胃のモデルを用い、合成的な歪みを加えたデータで学習された本システムは、7.1%の並進誤差および3.4%の回転誤差を達成し、従来のSLAM手法を上回り、低テクスチャ、反射、運動ブラー、低解像度などの条件下でも頑健であることを示している。

ABSTRACT

We present a robust deep learning based 6 degrees-of-freedom (DoF) localization system for endoscopic capsule robots. Our system mainly focuses on localization of endoscopic capsule robots inside the GI tract using only visual information captured by a mono camera integrated to the robot. The proposed system is a 23-layer deep convolutional neural network (CNN) that is capable to estimate the pose of the robot in real time using a standard CPU. The dataset for the evaluation of the system was recorded inside a surgical human stomach model with realistic surface texture, softness, and surface liquid properties so that the pre-trained CNN architecture can be transferred confidently into a real endoscopic scenario. An average error of 7:1% and 3:4% for translation and rotation has been obtained, respectively. The results accomplished from the experiments demonstrate that a CNN pre-trained with raw 2D endoscopic images performs accurately inside the GI tract and is robust to various challenges posed by reflection distortions, lens imperfections, vignetting, noise, motion blur, low resolution, and lack of unique landmarks to track.

研究の動機と目的

外部センサを用いず、アンタングルド内視鏡カプセルロボットのリアルタイムかつ高精度な6-DoFポーズ推定を可能にすること。
低テクスチャ、反射的、ノイズの多い内視鏡環境において、従来のSLAM手法に見られる限界を克服すること。
ImageNetからのトランスファーラーニングを活用することで、大規模なアノテート済みデータセットへの依存度を低減すること。
消化管内視鏡臨床応用に適した、頑健なビジュアルオンリーの局所化システムの開発

提案手法

23層の深層畳み込みニューラルネットワーク（CNN）を、単一のモノクローラル内視鏡画像から6-DoFポーズ（3次元並進と3次元回転）を回帰するように、エンドツーエンドで学習する。
限られた内視鏡データで効果的な特徴学習を可能にするために、ImageNetで事前学習された重みを用いてCNNを初期化するトランスファーラーニングを適用する。
訓練データに、運動ブラー、ヴィgnetting、ノイズ、反射などの合成的歪みを追加することで、実際の内視鏡環境を模擬する。
ソフトな組織のテクスチャ、表面の液体、現実的な変形を再現した物理的特性を持つ、独自に構築した実物のヒト胃モデルで撮影されたデータセットを用いて学習を行う。
標準CPU（Intel i5）上で1フレームあたり5 msのリアルタイム推論を達成し、リアルタイムの局所化を実現している。
過学習を防ぐために、別々の訓練および検証データに分割された交差検証プロトコルを用い、検証損失が収束した時点で学習を停止する。

実験結果

リサーチクエスチョン

RQ1実際の消化管路環境からの単眼視覚入力のみを用いて、深層CNNを効果的に微調整し、カプセルロボットの6-DoF局所化を実現できるか？
RQ2ImageNetからのトランスファーラーニングは、低テクスチャ、高歪みの内視鏡画像において、性能をどの程度向上させるか？
RQ3提案手法のCNNベースのアプローチは、挑戦的な内視鏡条件下において、既存のSLAM手法（例：ORB-SLAM、PTAM、LSD-SLAM）と比較して、どの程度高い局所化精度を達成するか？
RQ4再トレーニングなしで、大規模な動き、反射、低品質な画像を含む未観測のテストシーケンスに対しても、モデルは一般化可能か？

主な発見

評価用のホールドアウトテストセット上で、提案手法のCNNベースのアプローチは、全軸で平均して並進誤差7.1%、回転誤差3.4%を達成した。
歪みを含む拡張データを用いた2番目の訓練実験では、並進誤差がx軸で1.60%、y軸で3.01%、z軸で5.71%の回転誤差を示し、優れた結果が得られた。
並進誤差は、x軸で4.72%、y軸で9.16%、z軸で7.44%であり、特にy方向で最大の誤差が観察された。
高速回転や大規模な並進を伴う困難な状況においても、OptiTrackの真値とほぼ重複する3次元軌道プロットにより、頑健なトラッキング性能が確認された。
18 cmの軌道上でRMSEが0.18 cmにまで低下し、PTAM（2.6 cm RMSE）、ORB-SLAM、LSD-SLAMを著しく上回った。
訓練損失および検証損失の曲線がグローバル最小値に収束したため、過学習やアンダーフィッティングがなく、効果的な一般化が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。