[論文レビュー] ForceVLA2: Unleashing Hybrid Force-Position Control with Force Awareness for Contact-Rich Manipulation
ForceVLA2は力認識をVision–Language–Actionフレームワークに統合し、接触の多い操作のためのハイブリッド力–位置制御を実現。実世界タスク全体で成功率とロバスト性が向上することを示す。
Embodied intelligence for contact-rich manipulation has predominantly relied on position control, while explicit awareness and regulation of interaction forces remain under-explored, limiting stability, precision, and robustness in real-world tasks. We propose ForceVLA2, an end-to-end vision-language-action framework that equips robots with hybrid force-position control and explicit force awareness. ForceVLA2 introduces force-based prompts into the VLM expert to construct force-aware task concepts across stages, and employs a Cross-Scale Mixture-of-Experts (MoE) in the action expert to adaptively fuse these concepts with real-time interaction forces for closed-loop hybrid force-position regulation. To support learning and evaluation, we construct ForceVLA2-Dataset, containing 1,000 trajectories over 5 contact-rich tasks, including wiping, pressing, and assembling, with multi-view images, task prompts, proprioceptive state, and force signals. Extensive experiments show that ForceVLA2 substantially improves success rates and reliability in contact-rich manipulation, outperforming pi0 and pi0.5 by 48.0% and 35.0%, respectively, across the 5 tasks, and mitigating common failure modes such as arm overload and unstable contact, thereby actively advancing force-aware interactive physical intelligence in VLAs. The project page is available at https://sites.google.com/view/force-vla2/home.
研究の動機と目的
- 現在のVLAフレームワークにおける接触の多い操作に対する能動的な力認識制御の不足を動機づけ、解決する。
- 力のプロンプトをVLM推論と適応的Cross-Scale MoEと結合して閉ループの力–位置制御を実現する統一的なForceVLA2アーキテクチャを開発する。
- ForceVLA2-Datasetを力プロンプトと力行動 supervision付きで作成し、力認識型の操作を評価する。
- 5つの実世界タスクでベースラインと比較して成功率と信頼性を向上させる。
- 力プロンプト、クロススケールMoE、マルチモーダルエンコーダの寄与を特定するアブレーションを提供する。
提案手法
- VLMエキスパートに力プロンプトを導入し、タスク段階全体で力認識型のタスク概念を構築する。
- アクションエキスパートでCross-Scale Mixture-of-Experts(MoE)を用いて力認識概念と実時相互作用力を統合し、ハイブリッド力–位置制御を実現する。
- プロプリオセプティブ状態と力をマルチモーダル経路にエンコードするとともに、生の力信号も短期的反応MoEを介して速いフィードバックを提供する。
- フローベースのポリシーヘッドを用いて、統合されたマルチモーダル埋め込みに条件づけられた力認識アクションを生成する。
- Manipulation中の段階切替を駆動する確率的遷移指標s_tを用いてサブタスク遷移をモデル化する。
- 1,000 ForceVLA2-Dataset軌跡を通じて5タスク(拭き取り、押し込み、組み立て等)を学習するエンドツーエンドのデータ駆動フレームワークを提供する。
- 主な式には以下が含まれる: (1) 入力埋め込み融合 E = VLM([visual tokens; text prompts; force prompts]); (2) プロプリオセプティブ/力エンコーディング E_P および E_F; (3) E_state を得るクロスアテンション; (4) Cross-Scale MoE の重み w_V, w_S, w_F; (5) E_MoE に条件づけられた flow-matching アクション整合化 a_t; (6) β/指数/一様由来のground-truthパラメトリック hat{s}_t を用いたサブタスク進行 s_t。
実験結果
リサーチクエスチョン
- RQ1ForceVLA2は接触の多いタスクで力認識とハイブリッド力–位置制御を統合することで、最先端のVLAsより高い成功率を達成できるか。
- RQ2どの構成要素(力プロンプト、Cross-Scale MoE、マルチモーダルエンコーダ)が性能向上に最も寄与するか。
- RQ3モダリティ融合は、視覚・力・固有感覚情報を適応制御のために最適にバランスさせるように設計すべきか。
- RQ4力認識付きの閉ループ制御は摂動に対するロバスト性を向上させ、アーム過負荷や不安定な接触などの一般的な不具合を防げるか。
主な発見
| Type | Method | Press bottle | Clean vase | Clean board | Retrie. plate | Assem. gears | Avg |
|---|---|---|---|---|---|---|---|
| w/o Force | π0 | 35.0 | 20.0 | 35.0 | 0.0 | 0.0 | 18.0 |
| π0.5 | π0.5 | 45.0 | 30.0 | 45.0 | 15.0 | 20.0 | 31.0 |
| w/ Force | ACP | 25.0 | 30.0 | 25.0 | 0.0 | 0.0 | 16.0 |
| π0 w/ F | π0 w/ F | 30.0 | 25.0 | 20.0 | 10.0 | 0.0 | 17.0 |
| ForceVLA | ForceVLA | 70.0 | 25.0 | 55.0 | 15.0 | 10.0 | 35.0 |
| ForceVLA2 | ForceVLA2 | 80.0 | 75.0 | 70.0 | 35.0 | 70.0 | 66.0 |
- ForceVLA2は5タスクで平均66.0%の成功率を達成し、最も力に敏感なタスクでπ0、π0.5、ForceVLAを最大50ポイントまで上回った。
- 力に敏感なタスクでは、ForceVLA2はベースラインより大きな利得を示し(例:Assemble gears 70.0% vs 0–70%の範囲)、他の手法を上回る。
- アブレーションにより力プロンプト(FP)、Cross-Scale MoE(CM)、マルチモードエンコーダ(ME)を追加すると性能が単調に改善され、特にCMが最大の単一ゲインを提供。
- Cross-Scale MoEの視覚、状態、力のモダリティの融合により、タスク段階ごとに主要情報を動的に切替え、安定性と応答性を改善。
- 動的力追従テストでは、ベースラインよりも突然の摂動(例:ボトル押し込み時のベース移動)に適応する能力をForceVLA2が示した。
- ForceVLA2はアーム過負荷と不安定な接触による失敗を減らし、接触の多い操作をより信頼できるものにしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。