[논문 리뷰] SayTap: Language to Quadrupedal Locomotion
논문은 자연어 명령과 DRL 기반 보행 제어기 사이의 인터페이스로 발 접촉 패턴을 도입하여, 유연하고 언어 주도적 보행이 실제 하드웨어로 전이되도록 하는 4족 보행 로봇용 시스템을 제시합니다.
Large language models (LLMs) have demonstrated the potential to perform high-level planning. Yet, it remains a challenge for LLMs to comprehend low-level commands, such as joint angle targets or motor torques. This paper proposes an approach to use foot contact patterns as an interface that bridges human commands in natural language and a locomotion controller that outputs these low-level commands. This results in an interactive system for quadrupedal robots that allows the users to craft diverse locomotion behaviors flexibly. We contribute an LLM prompt design, a reward function, and a method to expose the controller to the feasible distribution of contact patterns. The results are a controller capable of achieving diverse locomotion patterns that can be transferred to real robot hardware. Compared with other design choices, the proposed approach enjoys more than 50% success rate in predicting the correct contact patterns and can solve 10 more tasks out of a total of 30 tasks. Our project site is: https://saytap.github.io.
연구 동기 및 목표
- 4족 보행에서 자연어와 저수준 보행 제어 간의 직관적인 인간-로봇 상호작용을 촉진합니다.
- 자연어와 보행 제어기 사이의Compact 인터페이스로서 발 접촉 패턴을 제안합니다.
- 다양하고 실시간 보행을 실현하기 위해 LLM-패턴 모듈과 DRL 기반 제어기를 학습합니다.
- 학습된 제어기의 시뮬레이션에서의 전이성을 실제 4족 보행 로봇(Unitree A1)으로 입증합니다.
제안 방법
- 임의의 자연어 명령을 4xLw 발 접촉 패턴 템플릿(0/1)으로 번역하는 LLM 프롬프팅 전략을 설계합니다.
- 훈련 중 무작위 패턴 생성기를 사용하여 다양한 보행 유형(BOUND, TROT, PACE, STAND_STILL, STAND_3LEGS) 간의 접촉-패턴 템플릿을 생성합니다.
- 자세정보( proprioception ), 속도 명령, 원하는 접촉 패턴을 입력으로 받고 관절 위치를 출력하는 DRL 정책(PPO on IsaacGym)을 학습합니다.
- 정책 출력에 이중 패시 대칭 트릭을 포함시켜 보행의 자연스러움을 개선하고 시뮬레이션-현실 간 차이를 줄입니다.
- 컨트롤러를 접촉 패턴의 분포에 노출하고 보존적 보행 궤적 대신 접촉 타이밍에 보상을 맞춥니다.
- LLM이 생성한 접촉 패턴을 실제 하드웨어의 저수준 명령으로 변환하되 대규모 미세 조정 없이 수행합니다.

실험 결과
연구 질문
- RQ1발 접촉 패턴이 자연어와 저수준 4족 보행 제어 사이의 효과적인 인터페이스가 될 수 있는가?
- RQ2LLM이 비구조화된 명령을 다양한 보행의 feasible 접촉-패턴 템플릿으로 얼마나 잘 매핑하는가?
- RQ3DRL 제어기가 주요 보행 작업과 지정된 접촉 패턴을 모두 구현하고 시뮬레이션에서 실제 로봇으로 전이될 수 있는가?
- RQ4언어 주도 인터페이스가 비구조적이고 모호한 자연어 명령을 실제로 지원하는가?
주요 결과
- LLM 기반 인터페이스가 30개 작업에서 두 baselines 대비 올바른 접촉 패턴 예측 정확도에서 약 50% 더 높게 달성합니다.
- 학습된 제어기가 시뮬레이션에서 명시된 속도 명령과 거의 동일하게 선형 속도를 추적하고 원하는 접촉 패턴에 근접하게 생성하며, 미세 조정 없이 실제 Unitree A1으로 전이됩니다.
- 발 접촉 패턴 인터페이스가 유연성과 정확성 측면에서 이산 보행 및 사인 파라미터 baselines보다 우수합니다.
- 시스템은 명시적 지시와 비구조적 자연어 표현 모두에 반응하여 표현적 인간-로봇 상호작용을 가능하게 합니다.
- 이 접근법은 실제 로봇 배치가 성공적으로 이루어졌음을 보여주는 영상 증거(Figure 1)와 함께 입증됩니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.