QUICK REVIEW

[논문 리뷰] Robotic Pick-and-Place of Novel Objects in Clutter with Multi-Affordance Grasping and Cross-Domain Image Matching

Andy Zeng, Shuran Song|arXiv (Cornell University)|2017. 10. 03.

Robot Manipulation and Learning참고 문헌 38인용 수 46

한 줄 요약

이 논문은 RGB-D 이미지에서 직접 기저귀접을 예측하고, 두 개의 스트림을 갖춘 컨볼루션 네트워크를 통해 촬영한 물체를 웹상의 제품 이미지와 매칭함으로써, 과거에 본 적 없는 물체를 혼잡한 환경에서 물체에 관계없이 집고 인식할 수 있는 로봇 픽앤플레이스 시스템을 제시한다. 이 시스템은 작업별 맞춤형 훈련 없이도 높은 성공률를 달성하여 2017년 아마존 로봇 경기에서 스토잉 과제에서 1등을 차지했다.

ABSTRACT

This paper presents a robotic pick-and-place system that is capable of grasping and recognizing both known and novel objects in cluttered environments. The key new feature of the system is that it handles a wide range of object categories without needing any task-specific training data for novel objects. To achieve this, it first uses a category-agnostic affordance prediction algorithm to select and execute among four different grasping primitive behaviors. It then recognizes picked objects with a cross-domain image classification framework that matches observed images to product images. Since product images are readily available for a wide range of objects (e.g., from the web), the system works out-of-the-box for novel objects without requiring any additional training data. Exhaustive experimental results demonstrate that our multi-affordance grasping achieves high success rates for a wide variety of objects in clutter, and our recognition algorithm achieves high accuracy for both known and novel grasped objects. The approach was part of the MIT-Princeton Team system that took 1st place in the stowing task at the 2017 Amazon Robotics Challenge. All code, datasets, and pre-trained models are available online at http://arc.cs.princeton.edu

연구 동기 및 목표

작업별 맞춤형 훈련 데이터가 필요 없이 혼잡한 환경에서 새로운 물체를 견고하게 집고 인식하는 문제를 해결한다.
웹에서 쉽게 확보할 수 있는 제품 이미지만을 사용하여 다양한 알려지지 않은 물체를 처리할 수 있는 로봇 시스템을 가능하게 한다.
그립 계획 수립과 물체 인식을 분리하여, '먼저 집고, 나중에 질문하기' 방식을 통해 인식의 신뢰성을 향상시킬 수 있도록 시스템을 개발한다.
물체의 다양성이 높고 데이터 수집이 비현실적인 실세계 응용 분야(예: 창고 자동화, 서비스 로봇)에 적합한 확장 가능한 솔루션을 설계한다.

제안 방법

RGB-D 이미지에서 직접 4종류의 기본 그립 동작(예: 측면 그립, 흡착)에 대한 기저귀접 지도를 밀도 높은 픽셀 단위로 생성하기 위해 완전 컨volutional 네트워크(FCN)를 사용한다.
사전에 물체 분할이나 분류 없이 기저귀접 값이 가장 높은 그립 동작을 선택하고 실행한다.
관측된 그립된 물체의 이미지와 웹에서 확보한 제품 이미지를 매칭하기 위해 이중 스트림 시아모이즈 스타일의 컨볼루션 네트워크를 사용하여 제로샷 인식을 가능하게 한다.
교차 도메인 이미지 매칭을 활용하여 재학습 없이도 새로운 물체에 적응하며, 대체로 대표적인 제품 이미지에 의존한다.
그립 계획과 인식 모듈을 실시간으로 작동하는 활성 인지 기반의 단일 파이프라인으로 통합한다.
실세계 로봇 상호작용 데이터와 웹 스크래핑을 통해 확보한 제품 이미지를 사용하여 시스템을 종합적으로 훈련시키며, 합성 데이터나 물체별 애너테이션의 필요성을 배제한다.

실험 결과

연구 질문

RQ1작업별 맞춤형 훈련 데이터 없이도, 다양한 새로운 물체를 혼잡한 환경에서 높은 성공률로 집을 수 있는가?
RQ2웹에서 확보한 제품 이미지만을 사용하여 교차 도메인 이미지 매칭이 정확한 인식을 가능하게 하는가? 재학습 없이도 가능한가?
RQ3물체에 관계없는 그립 계획 방식 — 즉, 물체의 정체성보다 기저귀접 예측을 우선시하는 방식 — 이 혼잡한 환경에서의 내성과 신뢰성 향상에 기여하는가?
RQ4'먼저 집고, 나중에 질문하기' 파라다임이 기존의 인식 후 그립 파이프라인보다 새로운 물체에 대한 인식 정확도 측면에서 뛰어나게 성능을 발휘하는가?
RQ5고도로 다양한 물체가 존재하는 실세계 응용 분야(예: 창고 물류, 가정 보조)에 대해 반복적인 데이터 수집 없이 얼마나 잘 확장될 수 있는가?

주요 결과

다양한 물체 유형에서 혼잡한 환경에서도 다기능 기저귀접 그립 기반 시스템이 매우 높은 성공률를 기록했으며, 부드럽고 변형 가능한, 가림이 있는 물체와 같은 도전적인 케이스에서도 성능을 유지를 하였다.
교차 도메인 이미지 매칭 시스템은 알려진 물체뿐 아니라 새로운 물체에 대해서도 높은 인식 정확도를 달성하였으며, 참조로 사용된 웹 스크래핑 제품 이미지가 몇 장 뿐이어도 성능을 유지를 하였다.
시스템은 아마존 로봇 경기 2017년 스토잉 과제에서 알려진 물체와 새로운 물체를 모두 성공적으로 정리하였으며, 다른 모든 팀을 압도하여 1등을 차지하였다.
'먼저 집고, 나중에 질문하기' 접근 방식은 그립 후 물체를 혼잡함으로부터 분리함으로써 시각적 매칭의 모호성을 줄여 인식의 신뢰성을 크게 향상시켰다.
재학습이나 추가 데이터 수집 없이도 온라인에서 확보할 수 있는 제품 이미지만을 기반으로 새로운 물체에 대해 강력한 일반화 성능를 보였다.
물체 경계나 정체성이 모호한 고도로 혼잡한 상황에서, 분할 기반 방법보다 물체에 관계없는 그립 계획 방식이 더 뛰어난 내성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.