[論文レビュー] InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation
InCoMは、意図駆動知覚と双方向のベース–アーム協調を同時モデル化する全身モバイル操作のエンドツーエンドフレームワークで、 ManiSkill-HABタスクにおいて知覚制約下での成功率を向上させる。
Whole-body mobile manipulation is a fundamental capability for general-purpose robotic agents, requiring both coordinated control of the mobile base and manipulator and robust perception under dynamically changing viewpoints. However, existing approaches face two key challenges: strong coupling between base and arm actions complicates whole-body control optimization, and perceptual attention is often poorly allocated as viewpoints shift during mobile manipulation. We propose InCoM, an intent-driven perception and structured coordination framework for whole-body mobile manipulation. InCoM infers latent motion intent to dynamically reweight multi-scale perceptual features, enabling stage-adaptive allocation of perceptual attention. To support robust cross-modal perception, InCoM further incorporates a geometric-semantic structured alignment mechanism that enhances multimodal correspondence. On the control side, we design a decoupled coordinated flow matching action decoder that explicitly models coordinated base-arm action generation, alleviating optimization difficulties caused by control coupling. Without access to privileged perceptual information, InCoM outperforms state-of-the-art methods on three ManiSkill-HAB scenarios by 28.2%, 26.1%, and 23.6% in success rate, demonstrating strong effectiveness for whole-body mobile manipulation.
研究の動機と目的
- ダイナミックな視点下で密接に結合したベースとアーム制御による堅牢な全身モバイル操作の動機づけ。
- モーション意図を推定してマルチスケール知覚特徴を再重み付けし、ステージ対応の知覚を開発。
- 幾何学と意味論の整合を通じた堅牢なクロスモーダル融合を実現。
- アクションデコード中のモバイルベースとマニピュレーター間の双方向協調をモデル化。
- privileged情報なしで ManiSkill-HAB シナリオにおけるタスク成功率の改善を実証。
提案手法
- Intent-Driven Pyramid Perception Module (IDPPM)は過去の行動とグローバルコンテキストから潜在的モーション意図を推定し、ステージ対応の知覚のためにマルチスケール知覚特徴を再重み付けする。
- Dual-stream Affinity Refinement Module (DARM)は幾何学的親和性と意味論的親和性をデカップリングして3D点群と2D画像間のクロスモーダル融合を高め、幾何ガイド付き注意正規化を適用。
- Decoupled Coordinated Flow Matching (DCFM)は条件付きフローマッチングを用い、ベースとアームデコーダ間の双方向クロスアテンションで協調的な全身動作を生成。
- 統一的なエンドツーエンド目的関数は、フローマッチング損失、意図からのスケール正則化、幾何学認識に基づく整合損失を組み合わせる。
- 本フレームワークはPOMDP形式の下で動作し、アクションはベースとアームの成分に分割され、 privileged perceptual informationには依存しない。
実験結果
リサーチクエスチョン
- RQ1全身モバイル操作においてタスク段階に応じた知覚注意を適応させるために潜在的モーション意図を如何に推定するか。
- RQ2エンドツーエンドフレームワーク内でベースとアーム間の双方向協調を効果的にモデル化して安定性とタスク成功を改善できるか。
- RQ3幾何学的・意味論的親和性を明示的に分離したクロスモーダル融合は動的な視点下の知覚を改善するか。
- RQ4マルチスケール知覚表現とステージ対応重み付けが操作とナビゲーション性能にどのような影響を与えるか。
- RQ5InCoMは知覚制約設定下で最先端手法と比べてどの程度性能を発揮するか。
主な発見
| Method | Pick Apple | Place Apple | Open Fridge | Pick Bowl | Place Bowl | Open Drawer | Close Drawer | Mean |
|---|---|---|---|---|---|---|---|---|
| DP (Chi et al., 2024) | 0.5 | 54.5 | 63.0 | 2.1 | 63.5 | 5.3 | 89.4 | 39.8 |
| ACT (Zhao et al., 2023) | 1.6 | 21.2 | 74.6 | 9.0 | 21.7 | 48.1 | 91.5 | 38.2 |
| WB-VIMA (Jiang et al., 2025) | 1.6 | 57.7 | 27.0 | 1.6 | 60.3 | 5.3 | 87.3 | 34.4 |
| DSPv2 (Su et al., 2025) | 1.4 | 65.2 | 73.4 | 1.4 | 85.7 | 29.9 | 98.4 | 50.8 |
| AC-DiT (Chen et al., 2025) | 33.3 | 33.3 | 90.7 | 36.0 | 17.3 | 81.3 | 97.3 | 55.6 |
| InCoM (Ours) | 59.4 | 84.1 | 87.3 | 84.1 | 82.5 | 88.9 | 100 | 83.8 |
- InCoMは ManiSkill-HAB の3つのシナリオで、成功率がそれぞれ28.2%、26.1%、23.6%上回る。
- アブレーション実験によりIDPPMまたはクロスモーダル成分を除去すると平均成功率が著しく低下し、全モデルは平均83.8%を達成。
- IDPPMはグローバル特徴とローカル特徴のステージ適応的割り当てを可能にし、知覚をタスク段階に整合させる。
- DARMは幾何学的・意味論的親和性を別々にモデリングし、幾何ガイド付き正規化を適用することで堅牢なクロスモーダル整列を提供。
- DCFMは双方向ベース–アーム協調を可能にする並列デコーダとクロスアテンション、および学習の安定化のためのストップグラデントを実現。
- 意図駆動重み付けを伴うマルチスケール知覚は、ナビゲーションと操作の両方における動的視点と知覚要件を処理するのに重要。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。