QUICK REVIEW

[논문 리뷰] Imitation from Observation: Learning to Imitate Behaviors from Raw Video via Context Translation

YuXuan Liu, Abhishek Gupta|arXiv (Cornell University)|2017. 07. 11.

Reinforcement Learning in Robotics참고 문헌 43인용 수 35

한 줄 요약

이 논문은 관찰에서의 모방 학습 프레임워크를 제안하여, 관찰을 다양한 맥락(시점, 신체 구조 등) 간에 번역하는 맥락 번역 모델을 사용해 로봇이 원시 영상 시연으로부터 복잡한 조작 기술을 학습할 수 있도록 한다. 이 방법은 영상 예측과 딥 강화 학습을 활용해 지각 보상 함수를 생성하며, 전문가의 동작이나 신체적 시연 없이도 실제 로봇 작업(청소, 숟갈이, 도구 사용 등)에서 높은 성공률을 달성한다.

ABSTRACT

Imitation learning is an effective approach for autonomous systems to acquire control policies when an explicit reward function is unavailable, using supervision provided as demonstrations from an expert, typically a human operator. However, standard imitation learning methods assume that the agent receives examples of observation-action tuples that could be provided, for instance, to a supervised learning algorithm. This stands in contrast to how humans and animals imitate: we observe another person performing some behavior and then figure out which actions will realize that behavior, compensating for changes in viewpoint, surroundings, object positions and types, and other factors. We term this kind of imitation learning "imitation-from-observation," and propose an imitation learning method based on video prediction with context translation and deep reinforcement learning. This lifts the assumption in imitation learning that the demonstration should consist of observations in the same environment configuration, and enables a variety of interesting applications, including learning robotic skills that involve tool use simply by observing videos of human tool use. Our experimental results show the effectiveness of our approach in learning a wide range of real-world robotic tasks modeled after common household chores from videos of a human demonstrator, including sweeping, ladling almonds, pushing objects as well as a number of tasks in simulation.

연구 동기 및 목표

표준 모방 학습의 한계를 해결하기 위해, 동일한 환경 구성에서 관찰-행동 쌍에 접근 가능하다는 가정을 하지 않는다.
로봇이 전문가의 행동을 시연하는 원시 영상에서 학습할 수 있도록 하되, 시연 맥락(시점, 물체 구성, 에이전트 신체 구조 등)이 에이전트 자신과 다를 경우에도 가능하도록 한다.
지상 진짜 행동이나 신체적 시연이 필요 없이 다양한 맥락으로 일반화할 수 있는 방법을 개발한다.
인터넷에서 확보한 영상에서의 모방 학습을 가능하게 하기 위해, 전문가 행동을 에이전트의 시점으로 매핑하는 맥락 번역 모델을 학습한다.
번역된 영상 시퀀스에서 유도된 보상 함수를 사용해 강화 학습을 통해 정책을 훈련시켜, 새로운 환경에 대해 제로샷 적응을 가능하게 한다.

제안 방법

원천 맥락(예: 인간의 제3인칭 시점)의 관찰 시퀀스를 목표 맥락(예: 로봇의 제1인칭 시점)으로 변환하는 맥락 번역 모델을 훈련한다.
번역된 관찰 시퀀스를 기반으로 목표 맥락에서의 미래 프레임을 영상 예측을 통해 생성하여 지각 보상 신호를 형성한다.
번역된 관찰 시퀀스를 딥 강화 학습 파이프라인(예: 가이드드 정책 서치)에 통합하여 예측된 전문가 행동을 따라가도록 행동을 최적화한다.
딥 신경망을 활용해 시연의 분리된 표현을 학습하여 행동과 맥락을 분리시키며, 제로샷 일반화를 가능하게 한다.
다양한 맥락에서의 쌍화된 시연를 사용해 번역 모델을 훈련시켜, 추론 시에 알려지지 않은 맥락으로도 일반화할 수 있도록 한다.
예측된 시퀀스를 강화 학습의 비용 함수로 사용하여, 지상 진짜 행동에 접근할 수 없더라도 행동을 모방할 수 있도록 한다.

실험 결과

연구 질문

RQ1시연 맥락(시점, 물체 구성, 에이전트 신체 구조 등)이 로봇 자신의 것과 다를 경우, 로봇이 원시 영상 시연으로부터 복잡한 행동을 모방할 수 있는가?
RQ2맥락 번역 모델이 인간 시연자 시점의 시각적 특징을 로봇의 시점으로 효과적으로 전이시켜 행동 모방을 가능하게 하는가?
RQ3사전 훈련된 시각적 특징이나 관절 각도 기반 보상 함수를 사용하는 기준선 방법과 비교해 볼 때, 제안된 방법의 일반화 능력과 성공률는 어떻게 되는가?
RQ4이 방법은 입자성 물질이나 도구와의 동적 상호작용을 포함하는 실제 작업에 얼마나 잘 일반화되는가?
RQ5지상 진짜 행동 레이블이나 인간의 개입이 필요한 시연 없이도, 인터넷에서 확보한 영상에서의 모방 학습을 가능하게 하는가?

주요 결과

이 방법은 아몬드 숟갈이 작업에서 66%의 성공률를 기록하여, 사전 훈련된 시각적 특징이나 관절 각도 기반 보상 함수를 사용하는 기준선 방법보다 뚜렷이 뛰어난 성능을 보였다.
아몬드 청소 작업에서는 사전 훈련된 특징 기반 기준선과 신체적 시연 기반 기준선 모두를 초월한 성공률를 기록하여, 복잡한 시각적 동적 변화에 대한 강건성을 입증했다.
비틀린 종이 청소 작업에서는 사전 훈련된 시각적 특징 기반 기준선이 실패한 상황에서 이 방법은 성공을 거두었으며, 학습된 번역 기반 보상 함수의 우수성을 보여주었다.
로봇의 시점과 신체 구조가 시연자와 다를 경우에도 이 방법은 원시 영상에서 도구 사용 행동(밀기, 숟갈이, 청소 등)을 성공적으로 학습했다.
추가 시연나 튜닝 없이도 알려지지 않은 맥락으로 일반화되었으며, 강력한 제로샷 전이 능력을 보였다.
맥락 번역의 활용으로 실제 로봇 시스템에서 효과적인 정책 학습이 가능했으며, 고정된 시각적 특징이나 신체적 교육에 의존하는 방법보다 성능이 뛰어났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.