[论文解读] Surgical Robot Transformer (SRT): Imitation Learning for Surgical Tasks
本文提出 Surgical Robot Transformer (SRT),是一种针对 da Vinci 系统的模仿学习方法,使用相对动作表示以克服不准确的前向运动学,从而实现组织操作、针头处理和打结,并且腕部摄像头提升了性能与泛化能力。
We explore whether surgical manipulation tasks can be learned on the da Vinci robot via imitation learning. However, the da Vinci system presents unique challenges which hinder straight-forward implementation of imitation learning. Notably, its forward kinematics is inconsistent due to imprecise joint measurements, and naively training a policy using such approximate kinematics data often leads to task failure. To overcome this limitation, we introduce a relative action formulation which enables successful policy training and deployment using its approximate kinematics data. A promising outcome of this approach is that the large repository of clinical data, which contains approximate kinematics, may be directly utilized for robot learning without further corrections. We demonstrate our findings through successful execution of three fundamental surgical tasks, including tissue manipulation, needle handling, and knot-tying.
研究动机与目标
- 以来自临床收集的 da Vinci 演示中包含的大量近似运动学数据为基础,激发可扩展的外科操作模仿学习。
- 解决 da Vinci 的前向运动学不准确性,这些问题阻碍端到端的模仿学习。
- 提出对运动学误差鲁棒的动作表示,并评估它们对任务性能与泛化的影响。
- 探索腕部摄像头在提升策略学习和对未见情景迁移中的作用。
提出的方法
- 比较三种策略输出的动作表示:以相机为中心的(绝对末端执行器位姿)、以工具为中心的(相对于当前末端执行器坐标系的相对运动)以及混合相对的(相对于内镜末端的平移、相对于末端执行器的旋转)。
- 使用具动作块化和转换器(ACT)的模仿学习框架以及扩散策略方法,利用四视角图像(内镜+腕部)来学习策略,不将真实运动学作为输入。
- 从图像观测中训练策略以预测两个机械臂的 delta pose 和 jaw angles,利用近似运动学数据而非修正后的运动学。
- 展示对配置变化的鲁棒性(如工具重新组装、布置关节移动)并评估对未见组织与三维表面的泛化能力。
- 通过消融实验评估腕部摄像头对任务性能以及对深度估计挑战的鲁棒性影响(有/无腕部摄像头)。
实验结果
研究问题
- RQ1模仿学习是否能够在使用近似运动学数据的情况下,在 da Vinci 系统上的具有挑战性的外科操作任务中达到高成功率?
- RQ2相对运动(以工具为中心或混合相对)在 dVRK 上学习策略时,是否比绝对前向运动学更鲁棒、更加一致?
- RQ3腕部摄像头是否能在外科任务中显著提升策略性能和泛化能力?
- RQ4学习得到的策略对新情景(如未见组织或背景)有多大的泛化能力?
- RQ5动作表示选择与输入模态相比,对任务成功的相对贡献有多大?
主要发现
- 相对动作表示(以工具为中心和混合相对)在组织提起、针头取出与交接以及打结等任务中,获得的任务成功率高于以相机为中心的绝对位姿表示。
- 跟踪实验表明,相对动作在机器人配置变化下比以相机为中心的动作更一致,表明对前向运动学误差的鲁棒性。
- 腕部摄像头显著提升策略性能,尤其在深度关键阶段如针头交接期间,并提升对多样视觉场景的泛化能力。
- 在测试的配置和任务中,使用带腕部摄像头的混合相对动作策略实现了最佳性能。
- 模型泛化实验在未见的组织类型与背景(如猪肉、鸡肉、未见的三维缝合垫)上显示定性成功,提示潜在的前临床应用扩展。
- 消融结果强调将平移固定到固定参考坐标系以稳定多臂复杂任务中的运动的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。