Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Invariant Feature Spaces to Transfer Skills with Reinforcement Learning

Abhishek Gupta, Coline Devin|arXiv (Cornell University)|2017. 03. 08.
Reinforcement Learning in Robotics참고 문헌 21인용 수 117
한 줄 요약

논문은 프록시 작업과 심층 임베딩을 사용하여 형태학적으로 다른 에이전트 간 기술을 이전하기 위한 불변 특성 공간을 학습하고, 공유 특성 공간과 보상 설계로 기술 이전을 가능하게 한다.

ABSTRACT

People can learn a wide range of tasks from their own experience, but can also learn from observing other creatures. This can accelerate acquisition of new skills even when the observed agent differs substantially from the learning agent in terms of morphology. In this paper, we examine how reinforcement learning algorithms can transfer knowledge between morphologically different agents (e.g., different robots). We introduce a problem formulation where two agents are tasked with learning multiple skills by sharing information. Our method uses the skills that were learned by both agents to train invariant feature spaces that can then be used to transfer other skills from one agent to another. The process of learning these invariant feature spaces can be viewed as a kind of "analogy making", or implicit learning of partial correspondences between two distinct domains. We evaluate our transfer learning algorithm in two simulated robotic manipulation skills, and illustrate that we can transfer knowledge between simulated robotic arms with different numbers of links, as well as simulated arms with different actuation mechanisms, where one robot is torque-driven while the other is tendon-driven.

연구 동기 및 목표

  • 다른 형태를 가진 에이전트 간의 기술 획득 가속화를 위해 전이 학습을 동기화한다.
  • 공유 프록시 스킬을 사용하여 두 에이전트에 대한 공통 불변 특성 공간을 형성한다.
  • 도메인 간의 비특이적 대응 관계를 학습하기 위한 신경 임베딩 및 정렬 방법을 개발한다.
  • 불변 공간을 이용한 강화 학습을 통해 여러 로봇 작업에서 기술 이전을 입증한다.

제안 방법

  • 공유 공간으로 매핑하는 에이전트 특이적 상태를 정의하고 공통 잠재 특성 공간 f와 g를 정의한다.
  • 두 에이전트가 학습하는 프록시 작업을 사용해 도메인 간 대응 관계(P)를 얻는다.
  • 페어된 프록시 상태에 대해 유사성(대조) 손실을 사용해 f와 g를 학습한다: L_sim = ||f(s_Sp) - g(s_Tp)||^2.
  • 임베딩이 정보를 보존하도록 자동인코더 디코더를 추가한다: L_AE_S 및 L_AE_T.
  • DTW 기반 또는 시간 기준 정렬을 사용해 대응 관계를 추정하고 임베딩을 반복적으로 정제한다(EM 스타일).
  • 이전에서 대상 에이전트의 보상을 전이 항 r_transfer = alpha * ||f(s_Sr) - g(s_Tr)||^2 로 보강하여 학습을 유도한다.

실험 결과

연구 질문

  • RQ1다른 형태를 가진 두 에이전트가 공통 프록시 스킬에서 공유 불변 특성 공간을 학습할 수 있는가?
  • RQ2에피소드 작업에 시간 왜곡이나 속도 차이가 허용될 때 도메인 간 상태를 어떻게 정렬할 수 있는가?
  • RQ3불변 공간에서의 학습이 새로운 작업에 대한 전이 효율을 직접 매핑하거나 비전 transfer보다 향상시키는가?

주요 결과

  • 임베딩 기반 전이는 서로 다른 링크 수와 서로 다른 작동 메커니즘을 가진 로봇 간 지식 공유를 가능하게 한다.
  • 여러 프록시 작업을 사용하는 것이 단일 프록시 작업보다 전이 성능을 향상시킨다.
  • EM 스타일 정렬(DTW)이 간단한 시간 기반 정렬보다 대응 관계를 개선하고 전이를 강화한다.
  • 직접 상태-대-상태 매핑은 공유 임베딩 공간을 학습하는 것보다 전이에 대해 성능이 떨어진다.
  • 텐던 구동 팔과 토크 구동 팔 간의 전이에서 임베딩 기반 접근 방식은 더 빠른 학습을 가능하게 하고 제한된 상호작용으로도 높은 성공률에 도달할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.