QUICK REVIEW

[论文解读] Learning From a Steady Hand: A Weakly Supervised Agent for Robot Assistance under Microscopy

Huanyu Tian, Martin Huber|arXiv (Cornell University)|Jan 28, 2026

Robot Manipulation and Learning被引用 0

一句话总结

作者提出一个弱监督框架，利用热身轨迹学习校准感知与深度分辨的感知，以在显微镜下进行稳手机器人辅助，降低操作者工作量并实现亚毫米精度。

ABSTRACT

This paper rethinks steady-hand robotic manipulation by using a weakly supervised framework that fuses calibration-aware perception with admittance control. Unlike conventional automation that relies on labor-intensive 2D labeling, our framework leverages reusable warm-up trajectories to extract implicit spatial information, thereby achieving calibration-aware, depth-resolved perception without the need for external fiducials or manual depth annotation. By explicitly characterizing residuals from observation and calibration models, the system establishes a task-space error budget from recorded warm-ups. The uncertainty budget yields a lateral closed-loop accuracy of approx. 49 micrometers at 95% confidence (worst-case testing subset) and a depth accuracy of <= 291 micrometers at 95% confidence bound during large in-plane moves. In a within-subject user study (N=8), the learned agent reduces overall NASA-TLX workload by 77.1% relative to the simple steady-hand assistance baseline. These results demonstrate that the weakly supervised agent improves the reliability of microscope-guided biomedical micromanipulation without introducing complex setup requirements, offering a practical framework for microscope-guided intervention.

研究动机与目标

通过从稳态手控演示中学习，共享自治代理以降低显微镜引导的显微操作的疲劳。
开发可实现深度分辨的三维末端定位的校准感知，无需外部标记物。
在稳态手控框架中整合不确定性估计，以实现安全的宏/微转变。
提供便捷的一次性标记-free 校准工作流，能够适应工具变更和会话变异。

提出的方法

两阶段三维感知：一个横向探测器用于快速二维末端定位，一个深度估计器用于轴向定位。
通过热身演示进行弱监督学习，生成视-运动监督，而无需手动深度标签。
使用Bi-Chamfer距离和速度一致性进行无标记眼-手校准，以估计相机和机器人坐标系之间的旋转。
带有始终开启的可随时开启的导纳层宏和带置信门控的微层，以实现带不确定性的高精度控制。
带有二维探测器（TEB）和深度估计块（DEB）融合的实时末端估计架构，用于鲁棒的三维末端跟踪。
通过散焦深度线索和焦平面参考，在没有密集人工标注的情况下生成相对深度标签。

实验结果

研究问题

RQ1如何利用稳态手控演示来学习在显微镜下进行微操作时的深度感知与校准感知控制？
RQ2是否可以通过弱监督方法，利用热身轨迹，在没有外部标记物或大量标签的情况下实现可靠的三维末端定位？
RQ3将不确定性估计纳入手眼标定与控制对精度与鲁棒性有何影响？
RQ4与手动或基线稳态手控相比，该框架是否降低了操作者工作量？
RQ5在无标记条件下，系统在宏-微转变中的表现如何？

主要发现

带不确定性预算的横向定位在95%置信区间下约为49 μm（最差子集）。
在大幅平面内移动时，深度在95%置信界内的精度≤291 μm。
同一被试内的用户研究（N=8）显示与手动操作相比，NASA-TLX工作负荷降低约77.1%。
两阶段感知与校准感融合提供可靠的三维末端估计，无需标记物或密集深度标注。
带不确定性感知的手眼标定使会话特定的R估计成为可能，并提高对工具变更和不同步的鲁棒性。
该框架在保持低设置复杂度的同时，提升了显微镜引导的显微操作的可靠性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。