[논문 리뷰] Grounding Language in Play.
이 논문은 자기지도 학습된 로봇 놀이 경험과 사후에 인간의 언어를 결합하여 자연어 목표를 로봇 정책에 고정시키는 확장 가능한 방법을 제안한다. 다중맥락 모방 학습을 통해 테스트 시점에 언어 목표를 따를 수 있는 단일 에이전트를 훈련시킨다. 이 방법은 언어 쌍화 비용을 경험의 1% 미만으로 줄이며, 16개 언어에서 수천 개의 새로운 지시어에 대해 제로샷 일반화를 가능하게 한다.
Natural language is perhaps the most versatile and intuitive way for humans to communicate tasks to a robot. Prior work on Learning from Play (LfP) [Lynch et al, 2019] provides a simple approach for learning a wide variety of robotic behaviors from general sensors. However, each task must be specified with a goal image---something that is not practical in open-world environments. In this work we present a simple and scalable way to condition policies on human language instead. We extend LfP by pairing short robot experiences from play with relevant human language after-the-fact. To make this efficient, we introduce multicontext imitation, which allows us to train a single agent to follow image or language goals, then use just language conditioning at test time. This reduces the cost of language pairing to less than 1% of collected robot experience, with the majority of control still learned via self-supervised imitation. At test time, a single agent trained in this manner can perform many different robotic manipulation skills in a row in a 3D environment, directly from images, and specified only with natural language (e.g. open the drawer...now pick up the block...now press the green button...). Finally, we introduce a simple technique that transfers knowledge from large unlabeled text corpora to robotic learning. We find that transfer significantly improves downstream robotic manipulation. It also allows our agent to follow thousands of novel instructions at test time in zero shot, in 16 different languages. See videos of our experiments at this http URL
연구 동기 및 목표
- 오픈월드 로봇 조작에서 모든 작업에 대해 목표 이미지가 필요로 하는 것이 비현실적임을 해결하기 위해.
- 인간이 주석을 달지 않은 목표 없이 자기지도 학습된 놀이를 통해 다양한 조작 기술을 학습할 수 있도록 하기 위해.
- 로봇 경험과 언어를 사후에 쌍화하는 방식을 활용하여 언어 애너테이션 비용을 줄이기 위해.
- 대규모 텍스트 코퍼스에서의 전이를 통해 다양한 언어에서 새로운 지시어에 대한 제로샷 일반화를 가능하게 하기 위해.
- 3D 환경에서 순차적이고 언어 조건에 의존하는 작업을 수행할 수 있는 단일 에이전트를 훈련시키기 위해.
제안 방법
- 일반적인 센서를 사용하여 명시적인 목표 감독 없이 비구조화된 놀이 동안 로봇 경험을 수집한다.
- 사후에 짧은 로봇 트레이젝터리와 관련된 인간의 언어 기술을 쌍화하여 언어 조건의 데이터셋을 생성한다.
- 다중맥락 모방 학습을 사용하여 훈련 중에 이미지 목표와 언어 목표 모두를 따를 수 있는 단일 정책을 훈련시킨다.
- 대규모 레이블이 없는 텍스트 코퍼스에서 전이 학습을 적용하여 로봇 정책의 언어 이해 능력을 향상시킨다.
- 테스트 시점에 동일한 정책을 자연어 지시어만으로 조건화하여 복잡한 순차적 작업을 수행하도록 한다.
- 事전에 훈련된 언어 표현을 활용하여 16개 언어에서 볼 수 없는 지시어에 대해 제로샷 일반화를 가능하게 한다.
실험 결과
연구 질문
- RQ1목표 이미지가 필요 없이 자기지도 학습된 로봇 놀이 경험에 언어를 효과적으로 고정시킬 수 있는가?
- RQ2다중맥락 모방 학습을 통해 단일 정책이 이미지 목표와 언어 목표 양쪽에 일반화할 수 있는가?
- RQ3사후 애너테이션을 사용함으로써 언어 쌍화 비용을 얼마나 줄일 수 있는가?
- RQ4대규모 텍스트 코퍼스에서의 전이가 새로운 지시어에 대한 제로샷 일반화를 향상시킬 수 있는가?
- RQ5테스트 시점에 16개 언어에서 수천 개의 새로운 지시어를 볼 수 없는 상태에서 모델이 따라할 수 있는가?
주요 결과
- 언어 쌍화 비용이 총 로봇 경험의 1% 미만으로 줄어들어 애너테이션 부담이 크게 감소한다.
- 모델은 훈련 중에 볼 수 없었던 수천 개의 새로운 지시어에 대해 테스트 시점에 제로샷 일반화를 달성한다.
- 대규모 레이블이 없는 텍스트 코퍼스에서의 전이 학습이 후속 로봇 조작 성능을 향상시킨다.
- 동일한 정책이 자연어로만 구성된 순차적 조작 작업을 직접 수행할 수 있다. 예: '서랍을 열어... 이제 블록을 집어... 이제 녹색 단추를 눌러'.
- 이 방법은 제로샷 설정에서 16개의 서로 다른 언어에 걸쳐 강력한 언어 일반화를 가능하게 한다.
- 자기지도 학습과 약한 감독 기반 언어 쌍화만을 사용함으로써 3D 환경에서도 높은 성능을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.