QUICK REVIEW

[논문 리뷰] QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation

Dmitry Kalashnikov, Alex Irpan|arXiv (Cornell University)|2018. 06. 27.

Robot Manipulation and Learning참고 문헌 39인용 수 574

한 줄 요약

QT-Opt은 비전 기반 폐쇄형 루프 로봇 그리핑을 위한 확장 가능한 오프폴리시 심층 Q-러닝 프레임워크를 학습시키며, 오프라인 데이터와 보통의 온폴리시 파인튜닝 이후 보지 못한 물체에서 96%의 성공을 달성한다.【from source】

ABSTRACT

In this paper, we study the problem of learning vision-based dynamic manipulation skills using a scalable reinforcement learning approach. We study this problem in the context of grasping, a longstanding challenge in robotic manipulation. In contrast to static learning behaviors that choose a grasp point and then execute the desired grasp, our method enables closed-loop vision-based control, whereby the robot continuously updates its grasp strategy based on the most recent observations to optimize long-horizon grasp success. To that end, we introduce QT-Opt, a scalable self-supervised vision-based reinforcement learning framework that can leverage over 580k real-world grasp attempts to train a deep neural network Q-function with over 1.2M parameters to perform closed-loop, real-world grasping that generalizes to 96% grasp success on unseen objects. Aside from attaining a very high success rate, our method exhibits behaviors that are quite distinct from more standard grasping systems: using only RGB vision-based perception from an over-the-shoulder camera, our method automatically learns regrasping strategies, probes objects to find the most effective grasps, learns to reposition objects and perform other non-prehensile pre-grasp manipulations, and responds dynamically to disturbances and perturbations.

연구 동기 및 목표

확장 가능한 오프폴리시 강화학습을 사용한 비전 기반 폐쇄형 그리핑 학습.
처음 보는 물체들에 대한 그리핑 전략 일반화.
전그리핑 조작 및 재그리핑을 통한 장기 목표 그리핑 시연.
대규모 RL 데이터 세트를 위한 확장 가능한 분산 학습 아키텍처 시연.

제안 방법

명시적인 액터가 없는 연속-액션 Q-학습 프레임워크인 QT-Opt를 도입한다.
안정성을 위한 크로스 엔트로피 벨만 오차와 두 개의 타깃 네트워크를 갖춘 Q-함수 Q_theta(s,a)를 사용한다.
행동 선택을 위해 비볼록 Q-함수를 최대화하는 확률적 최적화(CEM)를 활용한다.
다수 로봇으로부터의 대규모 오프폴리시 데이터(580k 그립)와 온폴리시 파인튜닝(~28k 그립)으로 학습한다.
리플레이 버퍼와 벨만 업데이트 작업이 있는 분산 비동기 학습 파이프라인을 구현한다.

실험 결과

연구 질문

RQ1비전 입력을 가진 오프폴리시 딥 Q-학습이 동적 그리핑 작업에서 높은 일반화를 달성할 수 있는가?
RQ2장거리 목표를 포함한 강화학습이 혼잡하고 보지 못한 물체 시나리오에서 사전 그리핑 조작과 재그리핑을 가능하게 하는가?
RQ3오프라인 데이터 규모와 온폴리시 파인튜닝이 그리핑 성능에 미치는 영향은 무엇인가?
RQ4QT-Opt 프레임워크가 긴 기간의 성공을 최적화하지 않는 이전의 자체 지도 그리핑 방법들과 어떻게 비교되는가?

주요 결과

QT-Opt는 오프라인 데이터와 보통의 온폴리시 파인튜닝 후 보지 못한 물체에서 96%의 그립 성공률을 달성한다.
오프폴리시 학습만으로도 이전의 자체 지도 그리핑 기준선을 능가한다.
온폴리시 파인튜닝(~28k 그립)은 어려운 음수 마이닝과 장기 목표 최적화를 가능하게 하여 눈에 띄는 개선을 제공한다.
정책은 사전 그리핑 조작, 재그립, 동적 교란 대응과 같은 고급 행동을 보여준다.
대규모 분산 RL 구성이 7대 로봇에 걸쳐 580k 그립으로 학습 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.