Skip to main content
QUICK REVIEW

[논문 리뷰] Robotic Pick-and-Place of Novel Objects in Clutter with Multi-Affordance Grasping and Cross-Domain Image Matching

Andy Zeng, Shuran Song|arXiv (Cornell University)|2017. 10. 03.
Robot Manipulation and Learning참고 문헌 38인용 수 46
한 줄 요약

이 논문은 RGB-D 이미지에서 직접 기저귀접을 예측하고, 두 개의 스트림을 갖춘 컨볼루션 네트워크를 통해 촬영한 물체를 웹상의 제품 이미지와 매칭함으로써, 과거에 본 적 없는 물체를 혼잡한 환경에서 물체에 관계없이 집고 인식할 수 있는 로봇 픽앤플레이스 시스템을 제시한다. 이 시스템은 작업별 맞춤형 훈련 없이도 높은 성공률를 달성하여 2017년 아마존 로봇 경기에서 스토잉 과제에서 1등을 차지했다.

ABSTRACT

This paper presents a robotic pick-and-place system that is capable of grasping and recognizing both known and novel objects in cluttered environments. The key new feature of the system is that it handles a wide range of object categories without needing any task-specific training data for novel objects. To achieve this, it first uses a category-agnostic affordance prediction algorithm to select and execute among four different grasping primitive behaviors. It then recognizes picked objects with a cross-domain image classification framework that matches observed images to product images. Since product images are readily available for a wide range of objects (e.g., from the web), the system works out-of-the-box for novel objects without requiring any additional training data. Exhaustive experimental results demonstrate that our multi-affordance grasping achieves high success rates for a wide variety of objects in clutter, and our recognition algorithm achieves high accuracy for both known and novel grasped objects. The approach was part of the MIT-Princeton Team system that took 1st place in the stowing task at the 2017 Amazon Robotics Challenge. All code, datasets, and pre-trained models are available online at http://arc.cs.princeton.edu

연구 동기 및 목표

  • 작업별 맞춤형 훈련 데이터가 필요 없이 혼잡한 환경에서 새로운 물체를 견고하게 집고 인식하는 문제를 해결한다.
  • 웹에서 쉽게 확보할 수 있는 제품 이미지만을 사용하여 다양한 알려지지 않은 물체를 처리할 수 있는 로봇 시스템을 가능하게 한다.
  • 그립 계획 수립과 물체 인식을 분리하여, '먼저 집고, 나중에 질문하기' 방식을 통해 인식의 신뢰성을 향상시킬 수 있도록 시스템을 개발한다.
  • 물체의 다양성이 높고 데이터 수집이 비현실적인 실세계 응용 분야(예: 창고 자동화, 서비스 로봇)에 적합한 확장 가능한 솔루션을 설계한다.

제안 방법

  • RGB-D 이미지에서 직접 4종류의 기본 그립 동작(예: 측면 그립, 흡착)에 대한 기저귀접 지도를 밀도 높은 픽셀 단위로 생성하기 위해 완전 컨volutional 네트워크(FCN)를 사용한다.
  • 사전에 물체 분할이나 분류 없이 기저귀접 값이 가장 높은 그립 동작을 선택하고 실행한다.
  • 관측된 그립된 물체의 이미지와 웹에서 확보한 제품 이미지를 매칭하기 위해 이중 스트림 시아모이즈 스타일의 컨볼루션 네트워크를 사용하여 제로샷 인식을 가능하게 한다.
  • 교차 도메인 이미지 매칭을 활용하여 재학습 없이도 새로운 물체에 적응하며, 대체로 대표적인 제품 이미지에 의존한다.
  • 그립 계획과 인식 모듈을 실시간으로 작동하는 활성 인지 기반의 단일 파이프라인으로 통합한다.
  • 실세계 로봇 상호작용 데이터와 웹 스크래핑을 통해 확보한 제품 이미지를 사용하여 시스템을 종합적으로 훈련시키며, 합성 데이터나 물체별 애너테이션의 필요성을 배제한다.

실험 결과

연구 질문

  • RQ1작업별 맞춤형 훈련 데이터 없이도, 다양한 새로운 물체를 혼잡한 환경에서 높은 성공률로 집을 수 있는가?
  • RQ2웹에서 확보한 제품 이미지만을 사용하여 교차 도메인 이미지 매칭이 정확한 인식을 가능하게 하는가? 재학습 없이도 가능한가?
  • RQ3물체에 관계없는 그립 계획 방식 — 즉, 물체의 정체성보다 기저귀접 예측을 우선시하는 방식 — 이 혼잡한 환경에서의 내성과 신뢰성 향상에 기여하는가?
  • RQ4'먼저 집고, 나중에 질문하기' 파라다임이 기존의 인식 후 그립 파이프라인보다 새로운 물체에 대한 인식 정확도 측면에서 뛰어나게 성능을 발휘하는가?
  • RQ5고도로 다양한 물체가 존재하는 실세계 응용 분야(예: 창고 물류, 가정 보조)에 대해 반복적인 데이터 수집 없이 얼마나 잘 확장될 수 있는가?

주요 결과

  • 다양한 물체 유형에서 혼잡한 환경에서도 다기능 기저귀접 그립 기반 시스템이 매우 높은 성공률를 기록했으며, 부드럽고 변형 가능한, 가림이 있는 물체와 같은 도전적인 케이스에서도 성능을 유지를 하였다.
  • 교차 도메인 이미지 매칭 시스템은 알려진 물체뿐 아니라 새로운 물체에 대해서도 높은 인식 정확도를 달성하였으며, 참조로 사용된 웹 스크래핑 제품 이미지가 몇 장 뿐이어도 성능을 유지를 하였다.
  • 시스템은 아마존 로봇 경기 2017년 스토잉 과제에서 알려진 물체와 새로운 물체를 모두 성공적으로 정리하였으며, 다른 모든 팀을 압도하여 1등을 차지하였다.
  • '먼저 집고, 나중에 질문하기' 접근 방식은 그립 후 물체를 혼잡함으로부터 분리함으로써 시각적 매칭의 모호성을 줄여 인식의 신뢰성을 크게 향상시켰다.
  • 재학습이나 추가 데이터 수집 없이도 온라인에서 확보할 수 있는 제품 이미지만을 기반으로 새로운 물체에 대해 강력한 일반화 성능를 보였다.
  • 물체 경계나 정체성이 모호한 고도로 혼잡한 상황에서, 분할 기반 방법보다 물체에 관계없는 그립 계획 방식이 더 뛰어난 내성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.