QUICK REVIEW

[论文解读] HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Ziyang Zhao, Shuheng Wang|arXiv (Cornell University)|Mar 6, 2026

Interactive and Immersive Displays被引用 0

一句话总结

本研究将 vision-language-action（VLA）策略转移到真实温室草莓采摘，采用三视图 RGB 设置及 VR 演示来训练并部署端到端机器人采摘，采用异步推理以提升稳定性与效率。

ABSTRACT

This work presents the first study on transferring vision-language-action (VLA) policies to real greenhouse tabletop strawberry harvesting, a long-horizon, unstructured task challenged by occlusion and specular reflections. We built an end-to-end closed-loop system on the HarvestFlex platform using three-view RGB sensing (two fixed scene views plus a wrist-mounted view) and intentionally avoided depth clouds and explicit geometric calibration. We collected 3.71 h of VR teleoperated demonstrations (227 episodes) and fine-tuned pi_0, pi_0.5, and WALL-OSS with full fine-tuning and LoRA. Under a unified 50 trials real-greenhouse protocol and metrics spanning completion, pi_0.5 with full fine-tuning achieved success rate of 74.0% with 32.6 s/pick and damage rate of 4.1%. Asynchronous inference-control decoupling further improved performance over synchronous deployment. Results showed non-trivial closed-loop picking with fewer than four hours of real data, while remaining limited by close-range observability loss and contact-dynamics mismatch. A demonstration video is available at: https://youtu.be/bN8ZowZKPMI.

研究动机与目标

将 VLA 策略应用于在非结构化温室环境中的长时程、接触敏感的果实采摘任务的动机。
展示一个端到端闭环 HarvestFlex 系统，整合多视角感知、VR 基于数据收集与策略自适应。
在统一的真实温室协议与训练预算下评估不同开源 VLA 基线。
评估微调策略（全量微调 vs LoRA）与部署模式（同步 vs 异步推理）对性能与效率的影响。

提出的方法

将草莓采摘表述为一个包含五个阶段的长时程、闭环操作任务：目标选择、靠近与躲避障碍、包裹与分离、放置、重试/重置。
使用带有 6-DoF 的 HarvestFlex 硬件与顺应性末端执行器，由三摄 RGB 设置（左、右、腕部安装）和速度模式的低层控制器驱动。
通过 VR 遥操作（Meta Quest3）收集覆盖多样光照、遮挡与完整采摘工作流的长时程演示。
在收集的演示上对开源 VLA 模型（Pi0、Pi0.5、WALL-OSS）进行监督损失的微调，针对连续臂动作与离散泵指令进行训练，提供全量微调与 LoRA 作为替代方案。
在硬件上部署训练好的策略，使用同步与异步推理流水线比较稳定性与效率，包括面向异步部署的动作分块与队列阈值触发。

实验结果

研究问题

RQ1在真实草莓采摘任务中，开源的视觉-语言-行动（VLA）策略是否可行？它们在野外能达到何种性能水平？
RQ2在长时程、接触敏感任务中，不同 VLA 模型与训练策略在成功率、效率与果实损伤方面的优劣如何？
RQ3在相同预算下，异步推理是否相比同步部署提升分离成功率与总体性能？

主要发现

在统一的真实温室协议下，pi0.5 全量微调实现了最佳的报道成功率 74.0% 与损伤率 4.1%。
异步推理–控制解耦相较于同步部署提升了性能，在接触密集阶段提高成功率并减少控制抖动。
增加腕部近距离观测在提升成功分数和成功率方面带来最大收益，完整三视图（左、右、腕）配置能带来最佳结果。
与传统模块化流水线相比，VLA 策略在开发与适应方面更迅速，实际演示不足四小时即可实现非平凡的成功，尽管由于感知-推理延迟导致循环时间较长。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。