QUICK REVIEW

[论文解读] SE3-Pose-Nets: Structured Deep Dynamics Models for Visuomotor Planning and Control

Arunkumar Byravan, Felix Leeb|arXiv (Cornell University)|Oct 2, 2017

Advanced Vision and Imaging参考文献 18被引用 30

一句话总结

SE3-Pose-Nets 提出了一种结构化的深度动力学模型，仅通过帧间点对对应关系，从原始深度数据中联合学习6D物体位姿嵌入与场景部件分割。通过在低维、物理基础的位姿空间中预测动力学，该方法实现了30Hz的实时、基于梯度的视觉-运动控制，在仿真和Baxter机器人真实世界实验中均优于基线方法，展现出更优的数据关联能力和控制鲁棒性。

ABSTRACT

In this work, we present an approach to deep visuomotor control using structured deep dynamics models. Our deep dynamics model, a variant of SE3-Nets, learns a low-dimensional pose embedding for visuomotor control via an encoder-decoder structure. Unlike prior work, our dynamics model is structured: given an input scene, our network explicitly learns to segment salient parts and predict their pose-embedding along with their motion modeled as a change in the pose space due to the applied actions. We train our model using a pair of point clouds separated by an action and show that given supervision only in the form of point-wise data associations between the frames our network is able to learn a meaningful segmentation of the scene along with consistent poses. We further show that our model can be used for closed-loop control directly in the learned low-dimensional pose space, where the actions are computed by minimizing error in the pose space using gradient-based methods, similar to traditional model-based control. We present results on controlling a Baxter robot from raw depth data in simulation and in the real world and compare against two baseline deep networks. Our method runs in real-time, achieves good prediction of scene dynamics and outperforms the baseline methods on multiple control runs. Video results can be found at: https://rse-lab.cs.washington.edu/se3-structured-deep-ctrl/

研究动机与目标

为解决视觉-运动控制中的长距离数据关联挑战，从原始深度观测中学习一致的、低维的位姿空间。
通过在学习到的位姿空间中直接使用基于梯度的方法优化动作，实现实时、响应式的控制。
使用具有最小监督的结构化编码器-解码器架构，联合预测物体部件分割及其3D运动动力学。
通过将数据关联嵌入学习到的动力学模型中，消除对外部跟踪系统的依赖。
在仿真和真实世界设置下，于Baxter机器人上展示鲁棒的实时控制性能。

提出的方法

该模型采用编码器-解码器架构，为检测到的场景部件预测低维位姿嵌入，以SE(3)空间中的6D物体位姿表示。
仅使用帧间点对对应关系进行训练，采用基于物理动机的3D损失函数，建模位姿变化而非图像重建。
网络显式分割场景中的显著部件，并在长序列中学习一致的位姿嵌入，实现隐式数据关联。
通过在潜在空间中最小化位姿误差，使用基于梯度的优化（如高斯-牛顿法或反向传播）实现控制，支持实时反馈控制。
该方法支持速度控制和末端执行器控制，利用关节状态信息提升高度相关关节的性能。
框架在原始深度数据上端到端训练，监督形式仅为帧间点对对应关系。

实验结果

研究问题

RQ1深度动力学模型能否仅从帧间点对对应关系中学习到场景部件的一致6D位姿嵌入？
RQ2此类嵌入位姿的模型能否在无需外部数据关联系统的情况下实现实时、响应式的视觉-运动控制？
RQ3与端到端像素级动力学模型相比，学习结构化的、基于部件的表示在控制性能和泛化能力方面有何提升？
RQ4在速度和精度方面，基于梯度的优化在学习到的位姿空间中相比动作采样或图像空间控制能有多大优势？
RQ5在存在传感器噪声和未建模动力学的情况下，该模型能否在真实世界机器人控制中实现泛化？

主要发现

SE3-Pose-Nets 实现了超过30Hz的实时控制，显著快于基线方法（约10Hz），包括位姿检测步骤在内。
该模型在仿真和真实世界Baxter机器人控制任务中均优于两种基线深度网络，展现出更高的预测精度和更强的控制鲁棒性。
通过预测6D位姿嵌入，该方法成功在长序列中学习到一致的数据关联，消除了对外部跟踪系统的依赖。
在位姿空间中通过高斯-牛顿法优化控制，收敛迅速，即使在存在传感器噪声的真实世界数据上，性能也几乎与基于反向传播的控制相当。
该模型展现出强大的泛化能力，仿真和真实世界结果均表明其在未建模动力学和末端执行器在深度图像中可见性差的情况下，仍能实现快速收敛和稳定性能。
加入关节角度测量可提升低阶连杆关节（4–6）的性能，但因强运动相关性，仍存在挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。