[논문 리뷰] TextOp: Real-time Interactive Text-Driven Humanoid Robot Motion Generation and Control
TextOp은 고수준 자기회귀 확산 기반 모션 생성기를 저수준 추적 정책과 결합하여 실시간, 텍스트 구동 전체 신체 휴머노이드 모션 생성 및 제어를 제공하고, 실제 로봇에서 인터랙티브한 언어 가이드 동작을 가능하게 한다.
Recent advances in humanoid whole-body motion tracking have enabled the execution of diverse and highly coordinated motions on real hardware. However, existing controllers are commonly driven either by predefined motion trajectories, which offer limited flexibility when user intent changes, or by continuous human teleoperation, which requires constant human involvement and limits autonomy. This work addresses the problem of how to drive a universal humanoid controller in a real-time and interactive manner. We present TextOp, a real-time text-driven humanoid motion generation and control framework that supports streaming language commands and on-the-fly instruction modification during execution. TextOp adopts a two-level architecture in which a high-level autoregressive motion diffusion model continuously generates short-horizon kinematic trajectories conditioned on the current text input, while a low-level motion tracking policy executes these trajectories on a physical humanoid robot. By bridging interactive motion generation with robust whole-body control, TextOp unlocks free-form intent expression and enables smooth transitions across multiple challenging behaviors such as dancing and jumping, within a single continuous motion execution. Extensive real-robot experiments and offline evaluations demonstrate instant responsiveness, smooth whole-body motion, and precise control. The project page and the open-source code are available at https://text-op.github.io/
연구 동기 및 목표
- 실시간으로 물리적으로 실행 가능한 휴머노이드 제어와 상호작용 언어 기반 의도 표현을 연결한다.
- 스트리밍 텍스트로부터 짧은 지평 참조 모션을 합성하고 이를 하드웨어에서 추적하는 두 단계 아키텍처를 개발한다.
- 로봇 골격 모션 표현을 제안하여 생성이 로봇 운동학과 더 잘 정렬되도록 한다.
- 트레이너 데이터를 제너레이터에서 생성된 모션으로 보강하여 데이터와 배포 간 분포 간극을 줄인다.
- 실제 로봇 능력과 응답성, 부드러움 및 정밀 제어를 보여주는 오프라인 평가를 시연한다.
제안 방법
- 고수준 자기회귀 모션 제너레이터 G는 이력과 현재 텍스트를 조건으로 한 VAE와 잠재 확산 모델을 사용하여 짧은 지평 참조 모션(T_future=8 프레임)을 생성한다.
- 저수준 추적 정책 π는 시뮬레이션에서 학습된 MLP 기반 컨트롤러로 참조 모션을 실행 가능한 관절 동작으로 변환하며 50 Hz에서 작동한다.
- 로봇 골격 모션 표현은 루트 방향, 요 증가, 접촉, 국부 평 translation 증가, 높이, 관절 위치 및 그 증가를 포함한 자유도 기반 특징을 부호화한다.
- 학습 데이터는 AMASS에서 파생된 재타깃 모션과 비공개 데이터를 결합하고, BABEL의 언어 주석과 더불어 미러 증강 및 배포 분포 정렬을 위한 자체 롤아웃 전략을 포함한다.
- 추적기 학습 중 데이터 증강: 텍스트 스트림에서 모션을 생성하여 배포 시 가변성에 추적기를 노출한다.
- 배포 상세: 실시간 텍스트 입력은 CLIP로 인코딩되고, 제너레이터는 GPU에서 6.25 Hz로 실행되며, 트래커는 기기에 50 Hz로 실행되고, 모션 버퍼를 가진 네트워크를 통한 통신을 사용한다.
실험 결과
연구 질문
- RQ1TextOp가 실제 휴머노이드 로봇에서 정밀하고 안정적이며 반응적인 전체 바디 동작을 달성할 수 있는가?
- RQ2인터랙티브한 설정에서 모션 제너레이터가 텍스트 명령으로부터 고품질의 의미적으로 정렬된 모션을 생성할 수 있는가?
- RQ3모션 트래킹 정책이 제너레이터 기반 생성으로부터 생성된 것들을 포함한 다양한 참고 모션을 견고하게 실행할 수 있는가?
- RQ4로봇 골격 모션 표현과 모션 생성 데이터 증강이 배포 안정성에 어떤 이점을 주는가?
주요 결과
- TextOp은 다양한 기술에서 실제 로봇 실험에서 즉각적인 반응성, 매끄러운 전체 바디 모션, 그리고 정밀 제어를 입증한다.
- 장시간 지평 30초 시험에서 TextOp는 무작위 및 구조화된 명령 스트림 전반에 걸쳐 높은 추적 정밀도, 높은 성공률 및 낮은 추적 오차를 유지한다.
- 명령에서 로봇 반응까지의 실시간 상호작용 지연은 평균 0.73초이며, 생성 지연은 약 29.6 ms, 추적 지연은 약 2.15 ms이다.
- 베이스라인과 비교하여 로봇 골격 표현은 생성 품질과 전환의 매끄러움을 향상시키고, 추적기 학습에 제너레이터 생성 모션을 보강하면 배포 정렬이 향상된다.
- 오프라인 평가에서 결합된 TextOp 접근법(M+G)은 제너레이터가 생성한 데이터에서 견고한 추적을 달성하는 반면, 순수 제너레이터 학습 추적기는 보지 못한 모션 데이터에 일반화하는 데 덜 효과적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.