[论文解读] HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild
本研究将 vision-language-action(VLA)策略转移到真实温室草莓采摘,采用三视图 RGB 设置及 VR 演示来训练并部署端到端机器人采摘,采用异步推理以提升稳定性与效率。
This work presents the first study on transferring vision-language-action (VLA) policies to real greenhouse tabletop strawberry harvesting, a long-horizon, unstructured task challenged by occlusion and specular reflections. We built an end-to-end closed-loop system on the HarvestFlex platform using three-view RGB sensing (two fixed scene views plus a wrist-mounted view) and intentionally avoided depth clouds and explicit geometric calibration. We collected 3.71 h of VR teleoperated demonstrations (227 episodes) and fine-tuned pi_0, pi_0.5, and WALL-OSS with full fine-tuning and LoRA. Under a unified 50 trials real-greenhouse protocol and metrics spanning completion, pi_0.5 with full fine-tuning achieved success rate of 74.0% with 32.6 s/pick and damage rate of 4.1%. Asynchronous inference-control decoupling further improved performance over synchronous deployment. Results showed non-trivial closed-loop picking with fewer than four hours of real data, while remaining limited by close-range observability loss and contact-dynamics mismatch. A demonstration video is available at: https://youtu.be/bN8ZowZKPMI.
研究动机与目标
- 将 VLA 策略应用于在非结构化温室环境中的长时程、接触敏感的果实采摘任务的动机。
- 展示一个端到端闭环 HarvestFlex 系统,整合多视角感知、VR 基于数据收集与策略自适应。
- 在统一的真实温室协议与训练预算下评估不同开源 VLA 基线。
- 评估微调策略(全量微调 vs LoRA)与部署模式(同步 vs 异步推理)对性能与效率的影响。
提出的方法
- 将草莓采摘表述为一个包含五个阶段的长时程、闭环操作任务:目标选择、靠近与躲避障碍、包裹与分离、放置、重试/重置。
- 使用带有 6-DoF 的 HarvestFlex 硬件与顺应性末端执行器,由三摄 RGB 设置(左、右、腕部安装)和速度模式的低层控制器驱动。
- 通过 VR 遥操作(Meta Quest3)收集覆盖多样光照、遮挡与完整采摘工作流的长时程演示。
- 在收集的演示上对开源 VLA 模型(Pi0、Pi0.5、WALL-OSS)进行监督损失的微调,针对连续臂动作与离散泵指令进行训练,提供全量微调与 LoRA 作为替代方案。
- 在硬件上部署训练好的策略,使用同步与异步推理流水线比较稳定性与效率,包括面向异步部署的动作分块与队列阈值触发。
实验结果
研究问题
- RQ1在真实草莓采摘任务中,开源的视觉-语言-行动(VLA)策略是否可行?它们在野外能达到何种性能水平?
- RQ2在长时程、接触敏感任务中,不同 VLA 模型与训练策略在成功率、效率与果实损伤方面的优劣如何?
- RQ3在相同预算下,异步推理是否相比同步部署提升分离成功率与总体性能?
主要发现
- 在统一的真实温室协议下,pi0.5 全量微调实现了最佳的报道成功率 74.0% 与损伤率 4.1%。
- 异步推理–控制解耦相较于同步部署提升了性能,在接触密集阶段提高成功率并减少控制抖动。
- 增加腕部近距离观测在提升成功分数和成功率方面带来最大收益,完整三视图(左、右、腕)配置能带来最佳结果。
- 与传统模块化流水线相比,VLA 策略在开发与适应方面更迅速,实际演示不足四小时即可实现非平凡的成功,尽管由于感知-推理延迟导致循环时间较长。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。