QUICK REVIEW

[논문 리뷰] Learning Language-Conditioned Robot Behavior from Offline Data and Crowd-Sourced Annotation

Suraj Nair, Eric Mitchell|arXiv (Cornell University)|2021. 09. 02.

Multimodal Machine Learning Applications인용 수 23

한 줄 요약

이 논문은 오프라인, 열등한 품질의 로봇 데이터와 커뮤니티 기반 자연어 애너테이션으로부터 언어 조건부 로봇 행동을 학습하는 방법인 LOReL을 제안한다. 쌍으로 연결된 언어 지시문과 상태 전이에 대해 언어 조건부 보상 분류기를 훈련시킴으로써, LOReL은 시각적 모델 예측 제어를 가능하게 하여 실제 언어 지시에 기반한 조작 작업에서 평균 66%의 성공률을 달성하며, 목표 이미지 기반 및 이민 기반 방법보다 25% 이상 뛰어난 성능을 보인다.

ABSTRACT

We study the problem of learning a range of vision-based manipulation tasks from a large offline dataset of robot interaction. In order to accomplish this, humans need easy and effective ways of specifying tasks to the robot. Goal images are one popular form of task specification, as they are already grounded in the robot's observation space. However, goal images also have a number of drawbacks: they are inconvenient for humans to provide, they can over-specify the desired behavior leading to a sparse reward signal, or under-specify task information in the case of non-goal reaching tasks. Natural language provides a convenient and flexible alternative for task specification, but comes with the challenge of grounding language in the robot's observation space. To scalably learn this grounding we propose to leverage offline robot datasets (including highly sub-optimal, autonomously collected data) with crowd-sourced natural language labels. With this data, we learn a simple classifier which predicts if a change in state completes a language instruction. This provides a language-conditioned reward function that can then be used for offline multi-task RL. In our experiments, we find that on language-conditioned manipulation tasks our approach outperforms both goal-image specifications and language conditioned imitation techniques by more than 25%, and is able to perform visuomotor tasks from natural language, such as "open the right drawer" and "move the stapler", on a Franka Emika Panda robot.

연구 동기 및 목표

일반적인 로봇이 자연어 지시문으로부터 다양한 시각-운동 조작 작업을 학습할 수 있도록 하는 것.
스케일러블하고 전문가가 아닌 데이터 수집 방식을 통해 고차원의 로봇 관측 공간에서 언어를 정착시키는 도전 과제를 해결하는 것.
열등한, 자율적으로 수집된 오프라인 데이터와 커뮤니티 기반 언어 애너테이션을 조합하여 효율적인 언어 조건부 정책 학습 방법을 개발하는 것.
목표 이미지 기반 및 이민 기반 접근 방식을 향상시켜 더 유연한, 목표 도달이 아닌 작업 지시 사양을 가능하게 하고, 일반화 능력과 희소 보상 처리 능력을 향상시키는 것.

제안 방법

행동 레이블 없이 랜덤, 스크립트 기반 또는 RL 기반 정책를 통해 수집된 열등한 로봇 경로의 오프라인 데이터셋을 활용한다.
커뮤니티 기반 채널(예: Amazon Mechanical Turk)을 통해 각 경로에 대해 수행된 행동의 자연어 기술을 애너테이션한다.
초기 상태에서 최종 상태로의 상태 전이가 주어진 자연어 지시문을 충족하는지 예측하는 이진 분류기를 훈련시킨다.
훈련된 분류기를 오프라인 강화 학습에서 다중 작업 정책 학습을 위한 언어 조건부 보상 함수로 사용한다.
학습된 보상과 시각적 모델 예측 제어, 그리고 학습된 동역학 모델을 조합하여 실제 로봇에서 언어 지시에 따라 작업을 수행한다.
시계열 일致성 향상과 과적합 방지를 위해 초기 상태와 최종 상태를 뒤집은 부정 예시를 훈련에 통합한다.

실험 결과

연구 질문

RQ1열등한, 자율적으로 수집된 오프라인 데이터로부터 언어 조건부 시각-운동 정책를 효과적으로 학습할 수 있는가?
RQ2이러한 데이터에 대해 커뮤니티 기반 자연어 애너테이션을 통해 전문가가 조작한 시연가 없이도 강건한 언어 정착이 가능할 수 있는가?
RQ3LOReL의 언어 조건부 보상은 목표 이미지 기반 및 이민 기반 방법과 비교해 성공률과 일반화 능력 측면에서 어떻게 다른가?
RQ4학습된 보상이 새로운, 재구성된 언어 지시문으로 얼마나 잘 일반화되는가?
RQ5이 방법은 자연어 지시에 기반한 실제 세계의 장기적인 조작 작업에서 높은 성능을 달성할 수 있는가?

주요 결과

LOReL은 프랑카 에미카 펜다 로봇에서 다섯 가지 실제 세계의 언어 조건부 작업에 대해 평균 66%의 성공률을 달성했으며, '오른쪽 서랍을 열어라' 및 '스태프러를 옮겨라'와 같은 작업을 포함한다.
부정 예시(상태를 뒤집은 경우)를 제거하면 성능이 30% 감소하여 시간적 진전을 학습하는 데 이들이 중요한 역할을 한다는 점을 확인한다.
모의 환경에서 LOReL은 언어 조건부 이민 학습 및 목표 이미지 기반 기준보다 25% 이상 높은 성능을 보였다.
복잡한 재구성된 표현에도 강건하게 대응하여 '왼쪽에 있는 작은 검정색과 흰색 서랍을 완전히 열어라'에 대해 70%의 성공률, '검은 책상 위에서 작은 회색 스태프러를 움직여라'에 대해 50%의 성공률을 기록했다.
사전 훈련된 언어 모델의 사용으로 새로운 자연어 지시문에 대해 제로샷 일반화가 가능해졌으며, 언어 지식의 효과적인 전이를 시사한다.
최적의 경로나 전문가가 애너테이션한 행동이 필요 없이도 실제 작업에 일반화 가능함을 보여주어 스케일러블성과 실용성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.