QUICK REVIEW

[论文解读] Visual Servoing from Deep Neural Networks

Quentin Bateux, Éric Marchand|arXiv (Cornell University)|May 24, 2017

Advanced Vision and Imaging参考文献 19被引用 30

一句话总结

本文提出一种基于深度学习的视觉伺服方法，利用微调的卷积神经网络（CNN）从单张参考图像中估计6-DOF相对相机位姿，即使在强光照变化和遮挡条件下，也能实现鲁棒、实时且亚毫米精度的机器人定位。该方法通过使用模拟光照和遮挡的合成数据增强，实现快速微调，并在真实机器人任务中实现高精度。

ABSTRACT

We present a deep neural network-based method to perform high-precision, robust and real-time 6 DOF visual servoing. The paper describes how to create a dataset simulating various perturbations (occlusions and lighting conditions) from a single real-world image of the scene. A convolutional neural network is fine-tuned using this dataset to estimate the relative pose between two images of the same scene. The output of the network is then employed in a visual servoing control scheme. The method converges robustly even in difficult real-world settings with strong lighting variations and occlusions.A positioning error of less than one millimeter is obtained in experiments with a 6 DOF robot.

研究动机与目标

开发一种对现实世界扰动（如遮挡和光照变化）具有鲁棒性的6-DOF机器人操作视觉伺服系统，实现实时运行。
在不依赖特征提取或跟踪的情况下，利用深度神经网络实现高精度位姿估计（亚毫米精度）。
通过仅使用单张参考图像和合成数据增强，减少对大规模真实世界数据集的依赖，实现快速微调。
将基于深度学习的位姿估计器集成到基于位置的视觉伺服控制方案中，实现在挑战性条件下的稳定收敛。

提出的方法

通过将预训练CNN（最初用于图像分类）的最后分类层替换为回归层，微调网络以预测6-DOF相对位姿。
从单张真实世界图像生成合成数据集，通过模拟多样的相机位姿、使用3D光源模拟的光照变化，以及利用外部数据集中的连贯图像块实现遮挡。
使用可微分的图像相似性度量（均方差，SSD）作为损失函数，训练网络实现直接的图像对比。
将CNN的位姿输出集成到基于位置的视觉伺服控制律中，利用实时图像反馈驱动机器人向目标位姿运动。
在训练过程中应用数据增强技术，包括随机光照变化和动态遮挡，以提高鲁棒性。
在GPU上进行在线推理，推理时间低于50ms，实现在6-DOF机械臂上的实时控制。

实验结果

研究问题

RQ1预训练的CNN是否可以有效重用于视觉伺服中的6-DOF相对位姿估计，而无需大量重新训练？
RQ2包括光照变化和遮挡在内的合成数据增强在提升对现实世界干扰的鲁棒性方面有多有效？
RQ3基于深度学习的视觉伺服系统是否能在具有挑战性的视觉条件下，于6-DOF机器人系统中实现亚毫米精度？
RQ4缺乏显式特征跟踪是否能提高对突发信息丢失（如遮挡）的鲁棒性？

主要发现

在真实6-DOF机器人龙门架上，在正常条件下，该方法在6-DOF任务中实现了亚毫米定位精度（小于1 mm）。
尽管存在强烈的扰动（如突然的遮挡和光照变化），系统仍能保持收敛，并在视觉信息恢复后迅速恢复。
在严重扰动下，累积平移误差最大达到10 cm，但一旦条件恢复正常，误差迅速回落至亚毫米水平。
网络输出的噪声低于原始图像误差（SSD），表明即使在瞬态扰动期间，位姿估计也保持稳定可靠。
系统对遮挡和光照变化具有鲁棒性，无需重新初始化或复杂的跟踪恢复机制。
在中端GPU上，推理时间始终低于50 ms，实现实时视觉伺服，且计算成本恒定，与数据集大小无关。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。