[论文解读] TriFinger: An Open-Source Robot for Learning Dexterity
本文介绍了TriFinger,一个开源、低成本的机器人平台(5,000美元),专为灵巧操作而设计,支持实时、安全、无监督运行。该平台通过与机器人无关的软件实现每秒1,000次的深度强化学习与最优控制,通过真实世界训练和坚固的硬件设计,在书写、投掷和立方体操作等任务中取得成功。
Dexterous object manipulation remains an open problem in robotics, despite the rapid progress in machine learning during the past decade. We argue that a hindrance is the high cost of experimentation on real systems, in terms of both time and money. We address this problem by proposing an open-source robotic platform which can safely operate without human supervision. The hardware is inexpensive (about \SI{5000}[\$]{}) yet highly dynamic, robust, and capable of complex interaction with external objects. The software operates at 1-kilohertz and performs safety checks to prevent the hardware from breaking. The easy-to-use front-end (in C++ and Python) is suitable for real-time control as well as deep reinforcement learning. In addition, the software framework is largely robot-agnostic and can hence be used independently of the hardware proposed herein. Finally, we illustrate the potential of the proposed platform through a number of experiments, including real-time optimal control, deep reinforcement learning from scratch, throwing, and writing.
研究动机与目标
- 解决灵巧操作中真实世界机器人实验成本高、风险大的问题。
- 通过降低硬件和操作门槛,实现大规模、可复现的真实机器人强化学习。
- 提供一个坚固、开源的平台,用于训练和基准测试灵巧操作策略。
- 通过集成的硬件耐用性和实时软件安全检查,支持安全、无监督运行。
- 作为各研究实验室间真实世界灵巧操作研究的共享基准。
提出的方法
- TriFinger平台配备三个3自由度手指,采用串联弹性执行器和高精度编码器,用于力和位置感知。
- 实时控制栈以1 kHz运行,并包含安全检查,防止不可预测控制策略对硬件造成损坏。
- 软件栈与机器人无关,支持C++和Python接口,用于实时控制和深度强化学习。
- 最优控制通过两步法实现:首先使用基于力矩的模型计算期望末端受力,然后通过雅可比转置控制施加转矩,并结合位置/速度反馈。
- 系统采用摩擦锥的线性近似,以在接触过程中强制执行非拉伸和非滑移条件。
- 提供基于PyBullet的仿真环境,用于预训练和策略迁移。
实验结果
研究问题
- RQ1低成本、开源的机器人平台是否能够实现灵巧操作深度强化学习策略的安全、无监督训练?
- RQ2来自单一平台的真实世界数据在多大程度上能提升泛化能力并减少模拟到现实的领域随机化?
- RQ3该平台在复杂、动态任务(如投掷和精细操作)中的有效性如何?
- RQ4坚固的硬件与实时安全检查相结合,是否能够支持长期、自主的实验?
- RQ5在TriFinger上训练的策略性能与在仿真中训练的策略相比如何?
主要发现
- TriFinger平台成功从零开始训练DDPG智能体,在700轮(约23分钟真实世界训练)后,目标位置的平均误差约为2厘米。
- 系统在长时间运行中表现出安全、无监督的操作能力,其中一台TriFingerPro设备在连续一周内经历碰撞和随机运动后未发生故障。
- 该平台成功实现了动态任务,如通过动力学教学动作投掷轻质物体数米远。
- 通过动力学教学,成功执行了精细操作任务,包括翻转立方体、平衡和用笔书写。
- 耐久性测试表明,单个手指连续运行72天后才发生结构失效,后续已针对薄弱点进行改进。
- 机器人无关的软件框架支持与新硬件的无缝集成,并实现实时控制和深度强化学习,频率达1 kHz。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。