QUICK REVIEW

[논문 리뷰] LessMimic: Long-Horizon Humanoid Interaction with Unified Distance Field Representations

Yutang Lin, Jieming Cui|arXiv (Cornell University)|2026. 02. 25.

Robot Manipulation and Learning인용 수 0

한 줄 요약

LessMimic은 거리장(DF) 기반의 무참조 프레임워크를 사용하여 단일 정책이 다양한 물체 기하학에서 긴 시퀀스의 휴머노이드 상호작용을 학습하도록 한다. DF에서 파생된 기하학적 신호는 VAE로 인코딩되고 행동 클로닝, Adversarial Interaction Priors, 및 시각적 증류를 통해 학습된다. 추론 시 모션 참조나 MoCap 없이도 강력한 일반화 및 스킬 구성이 가능하다.

ABSTRACT

Humanoid robots that autonomously interact with physical environments over extended horizons represent a central goal of embodied intelligence. Existing approaches rely on reference motions or task-specific rewards, tightly coupling policies to particular object geometries and precluding multi-skill generalization within a single framework. A unified interaction representation enabling reference-free inference, geometric generalization, and long-horizon skill composition within one policy remains an open challenge. Here we show that Distance Field (DF) provides such a representation: LessMimic conditions a single whole-body policy on DF-derived geometric cues--surface distances, gradients, and velocity decompositions--removing the need for motion references, with interaction latents encoded via a Variational Auto-Encoder (VAE) and post-trained using Adversarial Interaction Priors (AIP) under Reinforcement Learning (RL). Through DAgger-style distillation that aligns DF latents with egocentric depth features, LessMimic further transfers seamlessly to vision-only deployment without motion capture (MoCap) infrastructure. A single LessMimic policy achieves 80--100% success across object scales from 0.4x to 1.6x on PickUp and SitStand where baselines degrade sharply, attains 62.1% success on 5 task instances trajectories, and remains viable up to 40 sequentially composed tasks. By grounding interaction in local geometry rather than demonstrations, LessMimic offers a scalable path toward humanoid robots that generalize, compose skills, and recover from failures in unstructured environments.

연구 동기 및 목표

객체 기하학 전반에 일반화되고 긴 시간 span의 다중 기술 휴머노이드 상호작용을 지원하는 통합 상호작용 표현의 필요성을 제시한다.
표면 거리, 그래디언트, 속도 분해 신호를 제공하여 접촉 인식 제어를 가능하게 하는 DF 기반 상호작용 표현을 제안한다.
모션 참조나 MoCap 없이 추론을 가능하게 하는 세 단계 학습 파이프라인(behavior cloning, AIP-guided RL, 및 시각적 증류)을 개발한다.
새로운 형태/크기에 대한 일반화, 실패 복구, 단일 정책 내의 과제의 점진적 구성 능력을 시연한다.

제안 방법

로컬 기하학 및 상호작용 역학을 DoF 수준의 Distance Field (DF)로 표현하고, 각 링크의 DF 거리, 그래디언트, 속도 성분(법선 및 접선)을 I_t라는 상호작용 특징으로 시간 창에 걸쳐 인코딩한다.
I_t를 Variational Auto-Encoder (VAE)를 통해 컴팩트한 잠재 표현 z_t로 인코딩하여 기하학 인식 상호작용 신호를 생성한다.
재타깃된 동작을 추적하는 모방 교사로부터 행동 클로닝으로 단일 전신 정책 π_base를 학습하고, 공변량 변화의 완화를 위해 DAgger를 사용한다.
무작위로 변환된 물체 기하학들에 걸쳐 기하학적 타당성을 규제하기 위해 z_t에 대한 판별기를 사용하여 AIP(Adversarial Interaction Priors)에 의해 안내된 강화학습으로 π_base를 미세조정한다.
MoCap 없이 배포가 가능하도록 DAgger 방식의 시각-운동 증류를 통해 전체 정책을 시각-기능을 갖춘 정책(π_vis)으로 증류하고, 자안 시점의 깊이 특징을 사용한다.

실험 결과

연구 질문

RQ1축적된 객체 기하학에 독립적인 기하학 신호를 제공하는 단일 DF 기반 표현이 다양한 물체 모양과 크기에 걸친 긴 시간의 휴머노이드 상호작용에 충분한지?
RQ2세 단계 학습 파이프라인(behavior cloning, AIP-guided RL, visual distillation)이 참조 없이 추론하고 스킬 구성을 원활하게 하는 단일 정책을 낳는가?
RQ3DF 기반 조건화가 실패 복구 및 보편적 일반화에 얼마나 기여하며, 보이지 않는 기하학 및 이질적 작업 시퀀스에 대해 얼마나 잘 일반화되는가?
RQ4이 접근법은 재설정이나 플래너 없이 긴 호라이즌(예: 40 연속 작업 인스턴스)으로 확장될 수 있는가?

주요 결과

단일 DF-조건화 정책은 0.4× ~ 1.6× 크기의 물체 스케일에서 PickUp 및 SitStand의 성공률이 80–100%에 도달하며 기본 baselines보다 우수하다.
장기 경로에서 이 방법은 5-작업 시퀀스에서 62.1%의 성공을 달성하고 40개의 연속 작업 인스턴스까지도 실행 가능성을 유지한다.
DF 기반의 국부 기하학 신호(거리, 그래디언트, 속도 분해)는 재학습 없이도 보지 못한 형태와 스케일에 대해 강건한 일반화를 제공한다.
세 단계 파이프라인은 참조 없는 배치를 가능하게 한다: 안정적인 초기화를 위한 행동 클로닝, 기하학 일반화를 위한 AIP-guided RL, MoCap 없이 배치를 위한 시각 증류.
이 접근법은 교란 후 물체 위치를 업데이트하여 상호작용을 재개하는 방식으로 온라인 실패 복구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.