QUICK REVIEW

[논문 리뷰] End-to-End Learning of Semantic Grasping

Eric Jang, Sudheendra Vijayanarasimhan|arXiv (Cornell University)|2017. 07. 06.

Robot Manipulation and Learning참고 문헌 25인용 수 39

한 줄 요약

이 논문은 단일 RGB 영상만을 사용하여 의미적 로봇 그립핑을 위한 엔드 투 엔드 두 개의 스트림 딥 러닝 프레임워크를 제안한다. 공간 그립 플래닝( dorsal stream)과 물체 클래스 인식(ventral stream)을 분리하여, 자기지도 학습 기반의 로봇 데이터 수집과 준지도 학습 기반의 레이블 전파를 활용해 인간 레이블이 최소한인 상태에서 학습을 수행하며, 엔드 투 엔드 기반의 기준 모델과 단일 스트림 모델에 비해 뚜렷한 성능 향상을 달성한다.

ABSTRACT

We consider the task of semantic robotic grasping, in which a robot picks up an object of a user-specified class using only monocular images. Inspired by the two-stream hypothesis of visual reasoning, we present a semantic grasping framework that learns object detection, classification, and grasp planning in an end-to-end fashion. A "ventral stream" recognizes object class while a "dorsal stream" simultaneously interprets the geometric relationships necessary to execute successful grasps. We leverage the autonomous data collection capabilities of robots to obtain a large self-supervised dataset for training the dorsal stream, and use semi-supervised label propagation to train the ventral stream with only a modest amount of human supervision. We experimentally show that our approach improves upon grasping systems whose components are not learned end-to-end, including a baseline method that uses bounding box detection. Furthermore, we show that jointly training our model with auxiliary data consisting of non-semantic grasping data, as well as semantically labeled images without grasp actions, has the potential to substantially improve semantic grasping performance.

연구 동기 및 목표

단일 RGB 영상만을 사용하여 고수준 의미적 명령에 기반해 물체를 선택하고 집는 로봇 그립핑 시스템을 개발한다.
의미적 그립핑을 위한 인간 레이블이 제한된 데이터 문제를 해결하기 위해 자기지도 학습 기반의 로봇 데이터 수집과 준지도 학습 기반의 레이블 전파를 사용한다.
보조 비의미적 그립핑 데이터와 의미적으로 레이블이 부여된 이미지(그립핑 동작 없음)를 통합함으로써 의미적 그립핑의 일반화 능력을 향상시킨다.
보조 데이터와 함께 공동 학습을 수행할 경우 공간적 및 의미적 추론 능력이 향상되는지 조사한다.

제안 방법

모델은 두 개의 스트림 딥 네트워크를 사용한다: dorsal stream은 기하학적 관계에 기반해 그립 성공 여부를 예측하고, ventral stream은 그립핑 중인 물체의 클래스를 분류한다.
자기지도 학습 기반 데이터는 자율적인 로봇 상호작용을 통해 수집되며, 성공적인 그립핑 후 물체의 근접 영상 촬영을 통해 레이블링된다.
준지도 학습 기반 레이블 전파 기법은 그립핑 후 촬영된 소량의 인간 레이블이 부여된 'present' 이미지를 활용해 대규모 혼잡한 그립핑 데이터에 의미 레이블을 할당한다.
ventral stream은 동일한 로봇 수집 데이터로부터 유도된 레이블과 인간 레이블이 부여된 present 이미지를 조합하여 학습한다.
비의미적 그립핑 데이터셋(S1)과 일반 이미지 분류 데이터셋(S2)에서 유래한 보조 데이터를 사용해 일반화 능력을 향상시킨다.
모델은 엔드 투 엔드로 학습되며, 두 스트림이 함께 최적화되며, 주의 기반 아키텍처로도 성능 향상을 위해 조정 가능하다.

실험 결과

연구 질문

RQ1두 스트림 딥 러닝 아키텍처가 하나의 엔드 투 엔드 정책에서 공간 그립 플래닝과 의미적 물체 인식을 효과적으로 통합할 수 있는가?
RQ2자기지도 학습 기반의 로봇 데이터 수집 기법을 활용해 의미적 그립핑에 대한 인간 레이블 의존도를 어떻게 줄일 수 있는가?
RQ3보조 비의미적 그립핑 데이터 통합이 의미적 그립핑 작업 성능에 어느 정도 기여하는가?
RQ4그립핑 동작 없이 의미 레이블이 부여된 이미지에서의 전이 학습은 일반화 능력을 향상시키는 데 효과적인가? 도메인 이동은 이에 어떤 영향을 미치는가?
RQ5그립핑된 물체의 present 이미지를 활용한 준지도 학습 기반 레이블 전파 기법이 대규모 로봇 데이터셋에 대해 의미 레이블링을 효과적으로 스케일링할 수 있는가?

주요 결과

두 스트림 모델은 표준 검출 기반 기준 모델과 단일 스트림 모델을 모두 능가하며, 보조 그립핑 데이터를 사용할 경우 미리 보지 않은 물체에 대해 분류 성공률이 3.0% 향상된다.
보조 비의미적 그립핑 데이터(S1)를 통합하면 분류/시도 정확도가 분리된 두 스트림 기준 모델 대비 3.0% 향상된다.
시험 물체의 present 뷰를 포함한 보조 의미 레이블이 부여된 이미지(S2)를 사용하면 학습 및 미리 보지 않은 시험 물체에서의 그립핑 정확도가 향상된다.
보조 데이터가 목표 도메인과 유사할 경우 도메인 전이 효과를 통해 성능 향상이 이루어지지만, ImageNet이나 JFT와 같은 높은 도메인 이동이 발생할 경우 성능 향상은 감소한다.
주의 기반 아키텍처 변형은 추가적인 성능 향상을 이끌어내며, 보조 그립핑 데이터와 결합할 경우 학습 물체에서 2.2% 향상되고, 미리 보지 않은 물체에서 3.3% 향상된다.
present 이미지를 통한 레이블 전파 기법은 혼잡한 그립핑 장면에 대한 효과적인 의미 레이블링을 가능하게 하며, 로봇 분야에서 대규모 자기지도 학습 기반 의미 레이블링의 실현 가능성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.