[論文レビュー] TextOp: Real-time Interactive Text-Driven Humanoid Robot Motion Generation and Control
TextOpは、高レベルの自己回帰拡散ベースのモーション生成器と低レベルの追跡ポリシーを結合することでリアルタイムのテキスト駆動による全身 humanoid モーション生成と制御を実現し、リアルロボット上で対話的な言語誘導行動を可能にします。
Recent advances in humanoid whole-body motion tracking have enabled the execution of diverse and highly coordinated motions on real hardware. However, existing controllers are commonly driven either by predefined motion trajectories, which offer limited flexibility when user intent changes, or by continuous human teleoperation, which requires constant human involvement and limits autonomy. This work addresses the problem of how to drive a universal humanoid controller in a real-time and interactive manner. We present TextOp, a real-time text-driven humanoid motion generation and control framework that supports streaming language commands and on-the-fly instruction modification during execution. TextOp adopts a two-level architecture in which a high-level autoregressive motion diffusion model continuously generates short-horizon kinematic trajectories conditioned on the current text input, while a low-level motion tracking policy executes these trajectories on a physical humanoid robot. By bridging interactive motion generation with robust whole-body control, TextOp unlocks free-form intent expression and enables smooth transitions across multiple challenging behaviors such as dancing and jumping, within a single continuous motion execution. Extensive real-robot experiments and offline evaluations demonstrate instant responsiveness, smooth whole-body motion, and precise control. The project page and the open-source code are available at https://text-op.github.io/
研究の動機と目的
- 対話型言語ベースの意図表現とリアルタイムで実行可能な humanoid 制御を橋渡しする。
- ストリーミングテキストから短時間 horizons の参照モーションを合成し、ハードウェア上で追跡する二層アーキテクチャを開発する。
- ロボットの運動学により良く適合する robot-skeleton モーション表現を提案する。
- データとデプロイメント間の分布ギャップを減らすため、トレーナーデータをジェネレータ生成モーションで拡張する。
- 実機での能力とオフライン評価を示し、応答性・滑らかさ・正確な制御を実証する。
提案手法
- 履歴と現在のテキストを条件として潜在拡散モデルを用いた VAE を組み合わせた高レベルの自己回帰モーション生成器 G が短時間参照モーション(T_future=8 フレーム)を生成する。
- 低レベル追跡ポリシー π は、参照モーションを実行可能な関節動作へ変換する 50 Hz の MLp ベースのコントローラとしてシミュレーションで学習される。
- ロボット骨格モーション表現は、ルート姿勢、ヨー回転の増分、接触、局所的な平移増分、高さ、関節位置とその増分などを DoF ベースの特徴としてエンコードする。
- トレーニングデータは AMASS由来のリターゲットモーションとプライベートデータを組み合わせ、言語アノテーションを BABEL から取得し、ミラー拡張と自己ロールアウト戦略を用いて分布を整合させる。
- トラッカー訓練時のデータ拡張:テキストストリームからモーションを生成してデプロイ時の多様性にトラッカーを曝露させる。
- デプロイメントの詳細:実時間のテキスト入力は CLIP によってエンコード、ジェネレータは GPU 上で 6.25 Hz、トラッカーは機上で 50 Hz、通信はモーションバッファを介してネットワーク経由で行う。
実験結果
リサーチクエスチョン
- RQ1TextOp は現実世界の人型ロボットで正確で安定し、応答性の高い全身挙動を達成できるか。
- RQ2モーション生成器は対話的な設定でテキスト指示から高品質で意味的に整合したモーションを生成できるか。
- RQ3モーション追跡ポリシーは、ジェネレータ生成によって生み出されたものを含む多様な参照モーションを堅牢に実行できるか。
- RQ4ロボット骨格モーション表現とモーション生成データ拡張がデプロイのロバスト性に与える利点は何か?
主な発見
- TextOpはリアルロボット実験で即応性・全身の滑らかなモーション・正確な制御を多様なスキルで実証した。
- 長距離の30秒試験で、TextOpは高い追従精度を維持し、ランダムおよび構造化された指示列に対して成功率が高く追従誤差が低い。
- コマンドからロボット反応までのリアルタイム相互作用遅延は平均 0.73 秒、生成遅延は約 29.6 ms、追従遅延は約 2.15 ms。
- ベースラインと比較して、ロボット骨格表現は生成品質と遷移の滑らかさを改善し、ジェネレータ生成モーションでトラッカ訓練を拡張するとデプロイ時の整合性が向上する。
- オフライン評価では、TextOp 組み合わせ(M+G)はジェネレータ生成データ上で堅牢な追跡を実現する一方、純粋なジェネレータ訓練のトラッカーは未知モーションデータへの一般化が劣る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。