[論文レビュー] LessMimic: Long-Horizon Humanoid Interaction with Unified Distance Field Representations
LessMimicは距離場(DF)ベースの参照なしフレームワークを用いて、単一ポリシーが多様な物体幾何学に跨る長距離 humanoid との相互作用を学習できるようにする。DF由来の幾何学的手掛かりはVAEで符号化され、挙動模倣、敵対的相互作用事前情報、および視覚蒸留を通じて学習される。推論時にはモーションリファレンスやMoCapを必要とせず、頑健な一般化とスキルの組み合わせを達成する。
Humanoid robots that autonomously interact with physical environments over extended horizons represent a central goal of embodied intelligence. Existing approaches rely on reference motions or task-specific rewards, tightly coupling policies to particular object geometries and precluding multi-skill generalization within a single framework. A unified interaction representation enabling reference-free inference, geometric generalization, and long-horizon skill composition within one policy remains an open challenge. Here we show that Distance Field (DF) provides such a representation: LessMimic conditions a single whole-body policy on DF-derived geometric cues--surface distances, gradients, and velocity decompositions--removing the need for motion references, with interaction latents encoded via a Variational Auto-Encoder (VAE) and post-trained using Adversarial Interaction Priors (AIP) under Reinforcement Learning (RL). Through DAgger-style distillation that aligns DF latents with egocentric depth features, LessMimic further transfers seamlessly to vision-only deployment without motion capture (MoCap) infrastructure. A single LessMimic policy achieves 80--100% success across object scales from 0.4x to 1.6x on PickUp and SitStand where baselines degrade sharply, attains 62.1% success on 5 task instances trajectories, and remains viable up to 40 sequentially composed tasks. By grounding interaction in local geometry rather than demonstrations, LessMimic offers a scalable path toward humanoid robots that generalize, compose skills, and recover from failures in unstructured environments.
研究の動機と目的
- 物体幾何に跨る一般化可能な統一的相互作用表現の必要性を動機づけ、長距離・多スキル humanoid 相互作用をサポートする。
- 接触認識制御のための表面距離・勾配・速度分解信号を提供する DF ベースの相互作用表現を提案する。
- モーションリファレンスや MoCap を必要とせず推論を可能にする 3 段階の学習パイプライン(挙動模倣、AIP-guided RL、視覚蒸留)を開発する。
- 未知の形状・スケールへ一般化し、失敗回復と単一ポリシー内のタスクの逐次的組み合わせを実証する。
提案手法
- DoFレベルで局所幾何と相互作用ダイナミクスをDistance Field(DF)で表現し、リンクごとのDF距離、勾配、および法線・接線の速度成分を含む相互作用特徴 I_t を時間窓で符号化する。
- I_t を Variational Auto-Encoder(VAE)によりコンパクトな潜在 z_t にエンコードし、幾何認識付き相互作用信号を生成する。
- 模倣教師が追跡するリターゲット動作からの挙動模倣で単一全身ポリシー π_base を訓練し、共変量シフトを緩和するために DAgger を使用する。
- 対称的な相互作用事前情報(AIP)に導かれた強化学習で π_base を微調整し、z_t 上の識別器を用いてランダム化された物体幾何学全体で幾何学的妥当性を正則化する。
- 視覚-運動蒸留を用いて DAggerスタイルで完全なポリシーを視覚対応ポリシー(π_vis)に蒸留し、MoCapなしで展開できるようにする。位置視点の深度特徴を使用。
実験結果
リサーチクエスチョン
- RQ1統一された DF ベース表現は、形状とスケールが異なる多様な物体に対して長距離 humanoid 相互作用に必要な幾何学に依存しない手掛かりを提供できるか。
- RQ23段階の学習パイプライン(挙动模倣、AIP-guided RL、視覚蒸留)は、参照なし推論とシームレスなスキル組成を実現する単一ポリシーを生み出すか。
- RQ3DFベースの条件付けは、失敗回復と見知らぬ幾何学・異種タスク列への頑健な一般化をどの程度促進するか。
- RQ4リセットやプランナーなしで長い時間軸(例:40回連続タスク)へスケールする性能はどれほどか。
主な発見
- 単一のDF条件付きポリシーは、0.4×〜1.6×の物体スケールでPickUpとSitStandの成功率を80–100%達成し、ベースラインを上回る。
- 長距離軌道では、5タスク系列での成功率が62.1%に達し、40連続タスクまで実用性を維持する。
- DFベースの局所幾何手掛かり(距離、勾配、速度分解)は、再訓練なしで未知の形状・スケールへ頑健に一般化を提供する。
- 3段階パイプラインは参照なしの展開を可能にする:安定した初期化のための挙動模倣、幾何学的一般化のためのAIP-guided RL、MoCap不要の展開のための視覚蒸留。
- オンラインの失敗回復をサポートし、撹乱後に物体位置を更新して相互作用を再開始できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。