QUICK REVIEW

[논문 리뷰] Learning Dexterous Manipulation for a Soft Robotic Hand from Human Demonstration

Abhishek Gupta, Clemens Eppner|arXiv (Cornell University)|2016. 03. 21.

Robot Manipulation and Learning참고 문헌 27인용 수 32

한 줄 요약

이 논문은 소프트 로봇 손(RBO Hand 2)이 물체 중심의 인간 시연(오직 물체의 운동만 시연됨)으로부터 덩치가 큰 조작 능력을 학습할 수 있도록 하는 강화 학습 프레임워크를 제안한다. 이는 모의 구현을 위해 타당한 시범을 자동으로 선택하고 융합함으로써 이루어진다. 이 방법은 유도 정책 탐색과 함께 새로운 번갈아가며 최적화 기법을 사용하여, 밸브 조작, 애벌론 조작, 그리고 집기 작업에서 수동으로 설계된 기준과 비슷한 성능을 달성하는 단일의 일반화 가능한 신경망 정책을 훈련시킨다.

ABSTRACT

Dexterous multi-fingered hands can accomplish fine manipulation behaviors that are infeasible with simple robotic grippers. However, sophisticated multi-fingered hands are often expensive and fragile. Low-cost soft hands offer an appealing alternative to more conventional devices, but present considerable challenges in sensing and actuation, making them difficult to apply to more complex manipulation tasks. In this paper, we describe an approach to learning from demonstration that can be used to train soft robotic hands to perform dexterous manipulation tasks. Our method uses object-centric demonstrations, where a human demonstrates the desired motion of manipulated objects with their own hands, and the robot autonomously learns to imitate these demonstrations using reinforcement learning. We propose a novel algorithm that allows us to blend and select a subset of the most feasible demonstrations to learn to imitate on the hardware, which we use with an extension of the guided policy search framework to use multiple demonstrations to learn generalizable neural network policies. We demonstrate our approach on the RBO Hand 2, with learned motor skills for turning a valve, manipulating an abacus, and grasping.

연구 동기 및 목표

정밀한 센서나 구동 장치가 없는 저비용 소프트 로봇 손을 사용하여 정교한 조작 능력을 가능하게 하기 위해.
인간 시범자와 로봇 손 간의 형태적 불일치 문제를 극복하기 위해 물체 중심의 시범으로부터 학습하기 위해.
수동으로 지정된 비용 함수에 의존하지 않고, 모의 구현을 위한 가장 타당한 시범을 자동으로 선택하고 융합하는 방법을 개발하기 위해.
유도 정책 탐색을 사용하여 단일의 일반화 가능한 신경망 정책을 훈련시켜 다양한 초기 손-물체 구성에 걸쳐 일반화되도록 하기 위해.
RBO Hand 2를 사용하여 실세계 작업, 예를 들어 밸브 조작, 애벌론 구슬 조작, 그리고 집기 작업에 본 방법을 적용하기 위해.

제안 방법

이 방법은 인간의 조작 중에 추적된 물체의 궤적만을 포함하는 물체 중심의 시범을 사용하며, 전체 손의 운동학적 데이터나 직접 원격 제어가 필요하지 않다.
새로운 알고리즘이 시범을 컨트롤러에 할당하고 궤적 중심의 강화 학습을 통해 최적화하는 것을 번갈아가며 수행함으로써, 각 초기 상태에 가장 타당한 시범을 선택할 수 있도록 한다.
이 접근법은 유도 정책 탐색(GPS)을 확장하여, 서로 다른 시범에 기반해 훈련된 다수의 국소 컨트롤러를 통합하는 단일의 고차원 신경망 정책을 훈련시킨다.
알고리즘은 타당성에 따라 시범을 소프트 할당함으로써, 정책이 초기 조건에 따라 어느 시범을 모방할지 동적으로 선택할 수 있도록 한다.
시범 궤적과 정책 출력 간의 $ l_2 $-거리 비용 함수를 사용하며, 제어 신호의 시간적 일관성을 향상시키기 위해 가우시안 필터링을 적용한다.
이 방법은 수동으로 설계된 보상 함수나 운동학적 가르침이 필요 없이, 오직 인간의 시범 데이터만을 사용하여 정책을 엔드 투 엔드로 훈련시킨다.

실험 결과

연구 질문

RQ1소프트 로봇 손은 전체 손 운동 데이터나 직접 원격 제어 없이 오직 물체 중심의 인간 시범만으로 복잡한 정교한 조작 작업을 학습할 수 있는가?
RQ2로봇의 형태가 인간 시범자와 다를 경우, 초기 손-물체 구성이 다양한 상황에서 정책이 어떻게 일반화될 수 있는가?
RQ3형태적 불일치가 존재하는 상황에서, 모의 구현을 위한 가장 타당한 시범을 자동으로 선택하고 융합할 수 있는 알고리즘적 메커니즘은 무엇인가?
RQ4유도 정책 탐색을 통해 훈련된 단일 신경망 정책가 오직 시범 데이터만을 사용하여 수동으로 설계된 기준의 성능을 어느 정도 충족할 수 있는가?
RQ5물체 중심의 시범에서 강화 학습을 수행하면, 실세계 작업인 밸브 조작과 애벌론 조작에서 안정적인 성능을 달성할 수 있는가?

주요 결과

제안된 방법은 병 집기 작업에서 수동으로 설계된 기준과 유사한 성능을 달성하여 10회의 테스트 시험 전부에서 물체를 성공적으로 집는 데 성공했다.
애벌론 작업에서, 학습된 정책는 단일 시범 기반 기준과 수동으로 설계된 오픈 루프 정책보다 모두 세 가지 테스트 위치에서 목표 위치로 향하는 구슬을 더 가까이 이동시켰다.
일반화 성능 측면에서 오라클 정책을 초월했으며, 오라클 정책은 다양한 초기 구성에 적응하도록 훈련되지 않았기 때문이다.
알고리즘은 타당성에 기반해 시범을 성공적으로 선택하고 융합하여, 애벌론 위치에 따라 다른 손가락을 사용할 수 있도록 허용했으며, 이는 수동으로 설계된 기준이 달성하지 못한 능력이었다.
시범 대응 할당과 함께 강화 학습을 사용함으로써 정책는 초기 상태 간에 일반화되었고, 단일 위치에서 훈련된 컨트롤러는 일반화에 실패했다.
지연된 보상 환경, 예를 들어 보상 신호가 희박하고 시간적으로 지연되는 집기 작업과 같은 환경에서도 본 방법은 뛰어난 내성적 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.