Skip to main content
QUICK REVIEW

[논문 리뷰] Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic Reinforcement Learning

Ryan Julian, Benjamin Swanson|arXiv (Cornell University)|2020. 04. 21.
Reinforcement Learning in Robotics참고 문헌 65인용 수 41
한 줄 요약

논문은 사전 학습된 오프 정책 RL 정책을 미세 조정하는 것이 새 배경, 물체, 조명 및 형태에 맞춰 시각 기반 로봇 파지학을 적응시키면서 처음부터 학습하는 데 필요한 데이터의 0.2% 미만으로도 가능하다는 것을 보여주고, ImageNet 기반 사전 학습보다 우수함을 입증합니다.

ABSTRACT

One of the great promises of robot learning systems is that they will be able to learn from their mistakes and continuously adapt to ever-changing environments. Despite this potential, most of the robot learning systems today are deployed as a fixed policy and they are not being adapted after their deployment. Can we efficiently adapt previously learned behaviors to new environments, objects and percepts in the real world? In this paper, we present a method and empirical evidence towards a robot learning framework that facilitates continuous adaption. In particular, we demonstrate how to adapt vision-based robotic manipulation policies to new variations by fine-tuning via off-policy reinforcement learning, including changes in background, object shape and appearance, lighting conditions, and robot morphology. Further, this adaptation uses less than 0.2% of the data necessary to learn the task from scratch. We find that our approach of adapting pre-trained policies leads to substantial performance gains over the course of fine-tuning, and that pre-training via RL is essential: training from scratch or adapting from supervised ImageNet features are both unsuccessful with such small amounts of data. We also find that these positive results hold in a limited continual learning setting, in which we repeatedly fine-tune a single lineage of policies using data from a succession of new tasks. Our empirical conclusions are consistently supported by experiments on simulated manipulation tasks, and by 52 unique fine-tuning experiments on a real robotic grasping system pre-trained on 580,000 grasps.

연구 동기 및 목표

  • 비전 기반 로봇 조작 정책을 오프 정책 RL로 미세 조정을 통해 새로운 변형에 적응시키는 방법을 Demonstrate합니다.
  • 미세 조정과 처음부터 학습 또는 ImageNet 특징 사용 간의 데이터 효율성 및 성능 향상을 정량화합니다.
  • 다양한 환경 및 형태 변화에 대해 사전 학습된 정책의 강건성을 평가합니다.
  • 지속 학습을 조사하기 위해 단일 정책을 연속적인 작업에 반복적으로 미세 조정합니다.

제안 방법

  • 다양한 물체에 걸친 580,000회의 실제 파지 시도를 통해 시각 기반 파지 정책(QT-Opt)을 사전 학습합니다.
  • 배경, 조명, 그리퍼 모양, 로봇 형태, 보지 못한 투명 물체 등 여섯 가지 도전적 수정에서 기본 정책을 평가합니다.
  • 사전 학습된 정책에서 초기화하고 기본 작업 데이터와 대상 작업 데이터를 결합한 타깃 작업 데이터 세트로 학습하는 간단한 오프라인 미세 조정 절차를 제안합니다.
  • 타깃 작업에 대한 오프라인 탐색 데이터를 수집하고(최대 800회 파지) 기본 및 대상 작업의 데이터를 사용하여 학습률을 줄여 정책을 업데이트합니다.
  • 타깃 작업에서 미세 조정 후 성능을 평가하고 Scratch 및 ImageNet 기준선과 비교합니다.
  • 여러 작업에 대해 순차적으로 미세 조정하여 연속 학습 실험을 수행하고 전달 및 안정성을 측정합니다.

실험 결과

연구 질문

  • RQ1사전 학습된 오프 정책 RL 정책이 제한된 새로운 데이터로도 상당한 작업 및 환경 변화에 얼마나 잘 적응할 수 있는가?
  • RQ2RL 기반 사전 학습이 로봇 공학에서 빠른 미세 조정에 필요한가, 아니면 감독형 ImageNet 사전 학습만으로 충분한가?
  • RQ3오프라인 미세 조정이 작업 시퀀스 간 성능 저하를 최소화하며 지속 학습을 지원할 수 있는가?

주요 결과

  • 오프 정책 RL로의 미세 조정은 비교적 작은 데이터 세트(최소 25 탐색 파지만으로도)에서 모든 도전 과제에서 상당한 성능 향상을 제공합니다.
  • RL로의 미세 조정은 Checkerboard Backing, Harsh Lighting, Transparent Bottles와 같은 작업에서 Scratch(무작위 시작) 및 ImageNet 사전 학습 기준선보다 우수한 성능을 보여줍니다.
  • 기본 작업에 대해 처음부터 학습하는 데 필요한 데이터의 0.2%로도 거의 최상위 성능에 도달합니다.
  • 지속 학습에서 순차적 미세 조정은 단일 단계 미세 조정에 비해 일반적으로 4–7퍼센트 포인트의 작은 성능 페널티를 가집니다.
  • RL 기반 사전 학습으로 학습하면 이미지 처리 계층에서의 매개변수 변화가 ImageNet 기반 사전 학습보다 크며, 이는 새로운 센서-운동 작업에 대한 효과적인 적응을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.