Skip to main content
QUICK REVIEW

[논문 리뷰] QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation

Dmitry Kalashnikov, Alex Irpan|arXiv (Cornell University)|2018. 06. 27.
Robot Manipulation and Learning참고 문헌 39인용 수 574
한 줄 요약

QT-Opt은 비전 기반 폐쇄형 루프 로봇 그리핑을 위한 확장 가능한 오프폴리시 심층 Q-러닝 프레임워크를 학습시키며, 오프라인 데이터와 보통의 온폴리시 파인튜닝 이후 보지 못한 물체에서 96%의 성공을 달성한다.【from source】

ABSTRACT

In this paper, we study the problem of learning vision-based dynamic manipulation skills using a scalable reinforcement learning approach. We study this problem in the context of grasping, a longstanding challenge in robotic manipulation. In contrast to static learning behaviors that choose a grasp point and then execute the desired grasp, our method enables closed-loop vision-based control, whereby the robot continuously updates its grasp strategy based on the most recent observations to optimize long-horizon grasp success. To that end, we introduce QT-Opt, a scalable self-supervised vision-based reinforcement learning framework that can leverage over 580k real-world grasp attempts to train a deep neural network Q-function with over 1.2M parameters to perform closed-loop, real-world grasping that generalizes to 96% grasp success on unseen objects. Aside from attaining a very high success rate, our method exhibits behaviors that are quite distinct from more standard grasping systems: using only RGB vision-based perception from an over-the-shoulder camera, our method automatically learns regrasping strategies, probes objects to find the most effective grasps, learns to reposition objects and perform other non-prehensile pre-grasp manipulations, and responds dynamically to disturbances and perturbations.

연구 동기 및 목표

  • 확장 가능한 오프폴리시 강화학습을 사용한 비전 기반 폐쇄형 그리핑 학습.
  • 처음 보는 물체들에 대한 그리핑 전략 일반화.
  • 전그리핑 조작 및 재그리핑을 통한 장기 목표 그리핑 시연.
  • 대규모 RL 데이터 세트를 위한 확장 가능한 분산 학습 아키텍처 시연.

제안 방법

  • 명시적인 액터가 없는 연속-액션 Q-학습 프레임워크인 QT-Opt를 도입한다.
  • 안정성을 위한 크로스 엔트로피 벨만 오차와 두 개의 타깃 네트워크를 갖춘 Q-함수 Q_theta(s,a)를 사용한다.
  • 행동 선택을 위해 비볼록 Q-함수를 최대화하는 확률적 최적화(CEM)를 활용한다.
  • 다수 로봇으로부터의 대규모 오프폴리시 데이터(580k 그립)와 온폴리시 파인튜닝(~28k 그립)으로 학습한다.
  • 리플레이 버퍼와 벨만 업데이트 작업이 있는 분산 비동기 학습 파이프라인을 구현한다.

실험 결과

연구 질문

  • RQ1비전 입력을 가진 오프폴리시 딥 Q-학습이 동적 그리핑 작업에서 높은 일반화를 달성할 수 있는가?
  • RQ2장거리 목표를 포함한 강화학습이 혼잡하고 보지 못한 물체 시나리오에서 사전 그리핑 조작과 재그리핑을 가능하게 하는가?
  • RQ3오프라인 데이터 규모와 온폴리시 파인튜닝이 그리핑 성능에 미치는 영향은 무엇인가?
  • RQ4QT-Opt 프레임워크가 긴 기간의 성공을 최적화하지 않는 이전의 자체 지도 그리핑 방법들과 어떻게 비교되는가?

주요 결과

  • QT-Opt는 오프라인 데이터와 보통의 온폴리시 파인튜닝 후 보지 못한 물체에서 96%의 그립 성공률을 달성한다.
  • 오프폴리시 학습만으로도 이전의 자체 지도 그리핑 기준선을 능가한다.
  • 온폴리시 파인튜닝(~28k 그립)은 어려운 음수 마이닝과 장기 목표 최적화를 가능하게 하여 눈에 띄는 개선을 제공한다.
  • 정책은 사전 그리핑 조작, 재그립, 동적 교란 대응과 같은 고급 행동을 보여준다.
  • 대규모 분산 RL 구성이 7대 로봇에 걸쳐 580k 그립으로 학습 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.