QUICK REVIEW

[论文解读] A Deep Learning Based 6 Degree-of-Freedom Localization Method for Endoscopic Capsule Robots

Mehmet Turan, Yasin Almalıoğlu|arXiv (Cornell University)|May 15, 2017

Gastrointestinal Bleeding Diagnosis and Treatment参考文献 18被引用 26

一句话总结

本文提出一种23层深度卷积神经网络（CNN），仅使用单目视觉输入，实现内窥镜胶囊机器人在实时环境下的6自由度（DoF）定位。该系统在包含合成畸变的逼真人体胃模型上进行训练，实现7.1%的平动误差和3.4%的转动误差，优于传统SLAM方法，并在低纹理、反光、运动模糊和低分辨率条件下表现出鲁棒性。

ABSTRACT

We present a robust deep learning based 6 degrees-of-freedom (DoF) localization system for endoscopic capsule robots. Our system mainly focuses on localization of endoscopic capsule robots inside the GI tract using only visual information captured by a mono camera integrated to the robot. The proposed system is a 23-layer deep convolutional neural network (CNN) that is capable to estimate the pose of the robot in real time using a standard CPU. The dataset for the evaluation of the system was recorded inside a surgical human stomach model with realistic surface texture, softness, and surface liquid properties so that the pre-trained CNN architecture can be transferred confidently into a real endoscopic scenario. An average error of 7:1% and 3:4% for translation and rotation has been obtained, respectively. The results accomplished from the experiments demonstrate that a CNN pre-trained with raw 2D endoscopic images performs accurately inside the GI tract and is robust to various challenges posed by reflection distortions, lens imperfections, vignetting, noise, motion blur, low resolution, and lack of unique landmarks to track.

研究动机与目标

实现无需外部传感器的、面向无缆内窥镜胶囊机器人的实时、高精度6-DoF位姿估计。
克服传统SLAM方法在低纹理、反光和噪声较多的内窥镜环境中性能受限的问题。
通过利用ImageNet的迁移学习，减少对大规模标注数据集的依赖。
开发一种适用于胃肠道内窥镜临床部署的鲁棒、纯视觉定位系统。

提出的方法

训练一个23层深度卷积神经网络（CNN），端到端回归单张单目内窥镜图像的6-DoF位姿（3D平动与3D转动）。
采用ImageNet预训练权重初始化CNN，以在有限内窥镜数据下实现有效特征学习。
通过添加合成畸变（如运动模糊、暗角、噪声和反光）对训练数据集进行增强，以模拟真实内窥镜条件。
网络在自建数据集上进行训练，该数据集采集自具有真实组织质地、表面液体和逼真形变特性的逼真人体胃模型。
在标准CPU（Intel i5）上实现每帧5毫秒的实时推理，支持实时定位。
采用交叉验证协议，设置独立的训练与验证集，并在验证损失收敛时停止训练，以防止过拟合。

实验结果

研究问题

RQ1能否通过仅使用来自逼真胃肠道环境的单目视觉输入，有效微调深度CNN实现胶囊机器人的6-DoF定位？
RQ2从ImageNet进行迁移学习在低纹理、高畸变的内窥镜图像上能多大程度上提升性能？
RQ3在具有挑战性的内窥镜条件下，所提出的基于CNN的方法与成熟SLAM技术（如ORB-SLAM、PTAM、LSD-SLAM）相比，定位精度如何？
RQ4该模型是否能在无需微调的情况下泛化到包含大范围运动、反光和低图像质量的未见测试序列？

主要发现

在保留测试集上的评估中，所提出的基于CNN的方法在所有轴向上平均平动误差为7.1%，转动误差为3.4%。
第二轮训练实验（包含增强畸变数据）结果更优：x轴误差1.60%，y轴误差3.01%，z轴转动误差5.71%。
各轴平动误差分别为：x轴4.72%，y轴9.16%，z轴7.44%，其中y方向误差最高。
系统在快速旋转和大范围平动等挑战性情况下表现出鲁棒的跟踪性能，与OptiTrack真实位姿的3D轨迹图近乎重合。
在18厘米轨迹上，该方法的RMSE为0.18厘米，显著优于PTAM（2.6厘米RMSE）、ORB-SLAM和LSD-SLAM。
训练与验证损失曲线收敛至全局最小值，表明模型具备良好的泛化能力，无过拟合或欠拟合现象。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。