QUICK REVIEW

[논문 리뷰] Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours

Lerrel Pinto, Abhinav Gupta|arXiv (Cornell University)|2015. 09. 23.

Robot Manipulation and Learning참고 문헌 12인용 수 28

한 줄 요약

이 논문은 Baxter 로봇을 사용해 700시간 동안 50,000회의 실험-오류 탐색을 통해 수집한 데이터를 바탕으로 대규모 자기지도 학습 프레임워크를 제안한다. 그림 조각에 대한 18진수 이진 분류 문제로 그립 예측을 재정의하고, 반복적으로 어려운 음성 예제를 수집하는 다단계 교육 과정을 적용함으로써, 새로운 물체에 대해 66%의 성공률을 달성하여 이전의 작은 데이터셋 연구를 크게 능가한다.

ABSTRACT

Current learning-based robot grasping approaches exploit human-labeled datasets for training the models. However, there are two problems with such a methodology: (a) since each object can be grasped in multiple ways, manually labeling grasp locations is not a trivial task; (b) human labeling is biased by semantics. While there have been attempts to train robots using trial-and-error experiments, the amount of data used in such experiments remains substantially low and hence makes the learner prone to over-fitting. In this paper, we take the leap of increasing the available training data to 40 times more than prior work, leading to a dataset size of 50K data points collected over 700 hours of robot grasping attempts. This allows us to train a Convolutional Neural Network (CNN) for the task of predicting grasp locations without severe overfitting. In our formulation, we recast the regression problem to an 18-way binary classification over image patches. We also present a multi-stage learning approach where a CNN trained in one stage is used to collect hard negatives in subsequent stages. Our experiments clearly show the benefit of using large-scale datasets (and multi-stage training) for the task of grasping. We also compare to several baselines and show state-of-the-art performance on generalization to unseen objects for grasping.

연구 동기 및 목표

인간 레이블링이 포함된 그립 데이터셋의 한계를 극복하기 위해, 각 물체에 대해 여러 개의 유효한 그립 지점이 존재하므로 의미론적 편향이 발생하고, 체계적인 레이블링이 실현 가능하지 않은 점을 해결하고자 한다.
이전 연구를 뛰어넘어 광범위한 실험-오류 상호작용을 통해 데이터 수집을 확장하여 인간 레이블링에 의존하는 것을 최소화하고자 한다.
로봇 상호작용을 통해 수집한 대규모 자기지도 데이터를 기반으로 고용량 CNN을 훈련시켜 새로운 물체에 대한 일반화 능력을 향상시키고자 한다.
대규모 자기지도 데이터 수집이 인간 레이블링 없이도 강력하고 일반화 가능한 그립 정책을 가능하게 하는지 탐구하고자 한다.

제안 방법

Baxter 로봇을 사용해 총 700시간 동안 50,000회의 그립 시도를 수집하였으며, 각 시도는 특정 이미지 조각과 각도에서 성공 또는 실패로 레이블링된다.
그립 예측 문제를 다각도 그립 예측이 가능한 18진수 이진 분류 문제로 재정의하였다. 각 출력 뉴런은 이산적인 그립 각도 범주에 대응한다.
다단계 학습 파이프라인을 사용한다: 사전 훈련된 ImageNet CNN을 초기 데이터로 미세조정하고, 그 결과 모델을 사용해 후속 훈련 단계에 사용할 어려운 음성 예제를 식별한다.
어려운 음성 예제는 현재 모델의 추론을 수행하고, 높은 예측 신뢰도를 보이지만 실제 성공률이 낮은 패치를 선택하여 훈련 세트에 추가함으로써 수집된다.
각 단계에서 데이터 집합을 통합하여 재훈련한다. 이는 과거 데이터를 모두 유지하고 재훈련함으로써 분포 이탈을 방지하고 성능 안정성을 향상시킨다.
실제 로봇 테스트 동안 재정렬 전략을 적용한다: 상위 10개의 예측 그립을 이웃 분석을 통해 재평가하여 실행 정밀도 부족에 대한 내성 강화를 도모한다.

실험 결과

연구 질문

RQ1로봇의 실험-오류 실험을 통해 대규모 자기지도 학습 데이터를 수집하면, 새로운 물체에 대한 일반화 능력이 크게 향상되는가?
RQ2어려운 음성 예제 추출을 포함한 다단계 교육 과정이 랜덤 데이터 수집이나 단일 단계 훈련보다 성능을 향상시키는가?
RQ3자기지도 학습 데이터의 규모(예: 50,000개 대비 1,000개 예제)가 그립 예측을 위한 딥 러닝 모델의 성능과 일반화 능력에 어떤 영향을 미치는가?
RQ4ImageNet에서 사전 훈련하는 것이 초기 학습보다 성능 향상에 얼마나 기여하는가?
RQ5자기지도 그립 정책이 혼잡한 환경과 실제 실행 오류에 일반화되는가?

주요 결과

실제 로봇 테스트에서 새로운, 이전에 본 적 없는 물체에 대해 66%의 성공률을 기록하여 훈련 분포를 초월한 강력한 일반화 능력을 입증하였다.
ImageNet 사전 훈련을 사용할 경우 50,000개 데이터 포인트로 훈련하면 새로운 물체에서 76.9%의 정확도를 달성하지만, 초기 학습으로 시작할 경우 64.6%에 그치므로 사전 훈련이 성능 향상에 상당한 기여를 한다.
다단계 학습은 첫 단계에서 정확도를 76.9%에서 79.3%로 향상시키며, 세 번째 단계에서 79.5%로 안정화되어 어려운 음성 예제 추출이 측정 가능한 성능 향상을 이끌어낸다는 것을 보여준다.
데이터 집합이 필수적이다: 현재 단계 데이터만 사용할 경우 정확도가 72.3%로 감소하여 이전 데이터를 유지함으로써 성능 저하를 방지한다는 점을 확인하였다.
모델은 혼잡한 환경으로 일반화되며, 10개의 물체 혼합물에 대해 다섯 번의 시도에서 평균 26회 상호작용으로 성공적인 혼잡 제거 작업을 수행하였다.
제거 분석 결과 데이터 크기를 늘릴수록 성능 향상이 일관되게 관찰되었으며, 20,000개 데이터 포인트를 초과하면 성능 향상이 포화 상태에 도달함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.