QUICK REVIEW

[論文レビュー] HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Ziyang Zhao, Shuheng Wang|arXiv (Cornell University)|Mar 6, 2026

Interactive and Immersive Displays被引用数 0

ひとこと要約

この研究は vision-language-action (VLA) ポリシーを実世界の温室イチゴ収穫へ適用する。3ビューRGB設定とVRデモンストレーションを用いて、非同期推論による安定性と効率性を高めたエンドツーエンドのロボットピッキングを訓練・デプロイする。

ABSTRACT

This work presents the first study on transferring vision-language-action (VLA) policies to real greenhouse tabletop strawberry harvesting, a long-horizon, unstructured task challenged by occlusion and specular reflections. We built an end-to-end closed-loop system on the HarvestFlex platform using three-view RGB sensing (two fixed scene views plus a wrist-mounted view) and intentionally avoided depth clouds and explicit geometric calibration. We collected 3.71 h of VR teleoperated demonstrations (227 episodes) and fine-tuned pi_0, pi_0.5, and WALL-OSS with full fine-tuning and LoRA. Under a unified 50 trials real-greenhouse protocol and metrics spanning completion, pi_0.5 with full fine-tuning achieved success rate of 74.0% with 32.6 s/pick and damage rate of 4.1%. Asynchronous inference-control decoupling further improved performance over synchronous deployment. Results showed non-trivial closed-loop picking with fewer than four hours of real data, while remaining limited by close-range observability loss and contact-dynamics mismatch. A demonstration video is available at: https://youtu.be/bN8ZowZKPMI.

研究の動機と目的

長期的で接触感度のある果実収穫タスクを未整理な温室環境で VLA ポリシーを適用する動機づけ。
マルチビュー知覚、VRベースのデータ収集、ポリシー適応を統合したエンドツーエンドの閉ループ HarvestFlex システムを実演。
統一された現地温室プロトコルとトレーニング予算の下で、異なるオープンソース VLA ベースラインを評価。
微調整戦略（全層微調整 vs LoRA）とデプロイモード（同期推論 vs 非同期推論）が性能と効率に及ぼす影響を評価。

提案手法

5段階から成る長期的な閉ループ操作タスクとしてイチゴ収穫を定式化：Target Selection（標的選択）、Approach & Obstacle Avoidance（接近と障害物回避）、Envelop & Detach（包囲・分離）、Placement（配置）、Retry/Reset（再試行/リセット）。
三脚のRGBセットアップ（左、右、手首装着）と速度モードの低レベル制御器によって駆動される6-DoFアームと適合エンドエフェクタを備えた HarvestFlex ハードウェアを使用。
VR テレオペレーション（Meta Quest3）を介して長期的なデモンストレーションを収集し、多様な照明・遮蔽・連続した摘取ワークフローをカバー。
収集したデモに対して、連続的な腕の動作と離散的なポンプコマンドの監督付き損失を用いて公開ソースのVLAモデル（Pi0、Pi0.5、WALL-OSS）をファインチューニングし、全層微調整と LoRA を代替として実施。
訓練済みポリシーをハードウェア上で同期推論と非同期推論のパイプラインでデプロイし、安定性と効率を比較。非同期デプロイメントのためのアクションチャンク化とキュー閾値トリガを含む。

実験結果

リサーチクエスチョン

RQ1オープンソースの vision-language-action (VLA) ポリシーは現実のイチゴ収穫に適用可能か、野外でどの程度の性能を達成できるか。
RQ2長期的で接触感度のタスクにおける成功率、効率、果実損傷の観点で、異なる VLA モデルと訓練戦略の長所と限界は何か。
RQ3同一予算の下で、非同期推論は同期デプロイと比べて分離成功と全体性能を向上させるか。

主な発見

統一された現実温室プロトコルの下で、pi0.5 の全微調整が報告された最高の成功率 74.0% と損傷率 4.1% を達成。
非同期推論-制御デカップリングは同期デプロイメントより性能を向上させ、接触が多い段階で成功率を上げ、制御ジッターを減少させた。
手首中心の近距離観測を追加すると成功スコアと成功率で最大の利得をもたらし、左・右・手首の三視点構成が最良の結果を出した。
従来のモジュラーパイプラインと比べ、VLAポリシーは開発と適応を迅速に行わせ、現実デモンストレーションが4時間未満で非自明な成功を達成したが、知覚推論待機によるサイクル時間が長くなるという欠点がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。