Skip to main content
QUICK REVIEW

[논문 리뷰] LessMimic: Long-Horizon Humanoid Interaction with Unified Distance Field Representations

Yutang Lin, Jieming Cui|arXiv (Cornell University)|2026. 02. 25.
Robot Manipulation and Learning인용 수 0
한 줄 요약

LessMimic은 거리장(DF) 기반의 무참조 프레임워크를 사용하여 단일 정책이 다양한 물체 기하학에서 긴 시퀀스의 휴머노이드 상호작용을 학습하도록 한다. DF에서 파생된 기하학적 신호는 VAE로 인코딩되고 행동 클로닝, Adversarial Interaction Priors, 및 시각적 증류를 통해 학습된다. 추론 시 모션 참조나 MoCap 없이도 강력한 일반화 및 스킬 구성이 가능하다.

ABSTRACT

Humanoid robots that autonomously interact with physical environments over extended horizons represent a central goal of embodied intelligence. Existing approaches rely on reference motions or task-specific rewards, tightly coupling policies to particular object geometries and precluding multi-skill generalization within a single framework. A unified interaction representation enabling reference-free inference, geometric generalization, and long-horizon skill composition within one policy remains an open challenge. Here we show that Distance Field (DF) provides such a representation: LessMimic conditions a single whole-body policy on DF-derived geometric cues--surface distances, gradients, and velocity decompositions--removing the need for motion references, with interaction latents encoded via a Variational Auto-Encoder (VAE) and post-trained using Adversarial Interaction Priors (AIP) under Reinforcement Learning (RL). Through DAgger-style distillation that aligns DF latents with egocentric depth features, LessMimic further transfers seamlessly to vision-only deployment without motion capture (MoCap) infrastructure. A single LessMimic policy achieves 80--100% success across object scales from 0.4x to 1.6x on PickUp and SitStand where baselines degrade sharply, attains 62.1% success on 5 task instances trajectories, and remains viable up to 40 sequentially composed tasks. By grounding interaction in local geometry rather than demonstrations, LessMimic offers a scalable path toward humanoid robots that generalize, compose skills, and recover from failures in unstructured environments.

연구 동기 및 목표

  • 객체 기하학 전반에 일반화되고 긴 시간 span의 다중 기술 휴머노이드 상호작용을 지원하는 통합 상호작용 표현의 필요성을 제시한다.
  • 표면 거리, 그래디언트, 속도 분해 신호를 제공하여 접촉 인식 제어를 가능하게 하는 DF 기반 상호작용 표현을 제안한다.
  • 모션 참조나 MoCap 없이 추론을 가능하게 하는 세 단계 학습 파이프라인(behavior cloning, AIP-guided RL, 및 시각적 증류)을 개발한다.
  • 새로운 형태/크기에 대한 일반화, 실패 복구, 단일 정책 내의 과제의 점진적 구성 능력을 시연한다.

제안 방법

  • 로컬 기하학 및 상호작용 역학을 DoF 수준의 Distance Field (DF)로 표현하고, 각 링크의 DF 거리, 그래디언트, 속도 성분(법선 및 접선)을 I_t라는 상호작용 특징으로 시간 창에 걸쳐 인코딩한다.
  • I_t를 Variational Auto-Encoder (VAE)를 통해 컴팩트한 잠재 표현 z_t로 인코딩하여 기하학 인식 상호작용 신호를 생성한다.
  • 재타깃된 동작을 추적하는 모방 교사로부터 행동 클로닝으로 단일 전신 정책 π_base를 학습하고, 공변량 변화의 완화를 위해 DAgger를 사용한다.
  • 무작위로 변환된 물체 기하학들에 걸쳐 기하학적 타당성을 규제하기 위해 z_t에 대한 판별기를 사용하여 AIP(Adversarial Interaction Priors)에 의해 안내된 강화학습으로 π_base를 미세조정한다.
  • MoCap 없이 배포가 가능하도록 DAgger 방식의 시각-운동 증류를 통해 전체 정책을 시각-기능을 갖춘 정책(π_vis)으로 증류하고, 자안 시점의 깊이 특징을 사용한다.

실험 결과

연구 질문

  • RQ1축적된 객체 기하학에 독립적인 기하학 신호를 제공하는 단일 DF 기반 표현이 다양한 물체 모양과 크기에 걸친 긴 시간의 휴머노이드 상호작용에 충분한지?
  • RQ2세 단계 학습 파이프라인(behavior cloning, AIP-guided RL, visual distillation)이 참조 없이 추론하고 스킬 구성을 원활하게 하는 단일 정책을 낳는가?
  • RQ3DF 기반 조건화가 실패 복구 및 보편적 일반화에 얼마나 기여하며, 보이지 않는 기하학 및 이질적 작업 시퀀스에 대해 얼마나 잘 일반화되는가?
  • RQ4이 접근법은 재설정이나 플래너 없이 긴 호라이즌(예: 40 연속 작업 인스턴스)으로 확장될 수 있는가?

주요 결과

  • 단일 DF-조건화 정책은 0.4× ~ 1.6× 크기의 물체 스케일에서 PickUp 및 SitStand의 성공률이 80–100%에 도달하며 기본 baselines보다 우수하다.
  • 장기 경로에서 이 방법은 5-작업 시퀀스에서 62.1%의 성공을 달성하고 40개의 연속 작업 인스턴스까지도 실행 가능성을 유지한다.
  • DF 기반의 국부 기하학 신호(거리, 그래디언트, 속도 분해)는 재학습 없이도 보지 못한 형태와 스케일에 대해 강건한 일반화를 제공한다.
  • 세 단계 파이프라인은 참조 없는 배치를 가능하게 한다: 안정적인 초기화를 위한 행동 클로닝, 기하학 일반화를 위한 AIP-guided RL, MoCap 없이 배치를 위한 시각 증류.
  • 이 접근법은 교란 후 물체 위치를 업데이트하여 상호작용을 재개하는 방식으로 온라인 실패 복구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.