[논문 리뷰] Robot Learning in Homes: Improving Generalization and Reducing Dataset Bias
이 논문은 저비용 로봇을 이용해 여섯 개의 실제 가정에서 28k개의 그라스 데이터셋을 수집하고, 라벨 노이즈를 모델링하기 위한 노이즈-강건 학습 아키텍처를 도입하며, 실험실 트레이닝 베이스라인 대비 DexNet 베이스라인에 비해 일반화 성능이 크게 향상되고(43.7% 향상), 노이즈 모델링으로 10%의 이익을 얻는다는 것을 보여준다.
Data-driven approaches to solving robotic tasks have gained a lot of traction in recent years. However, most existing policies are trained on large-scale datasets collected in curated lab settings. If we aim to deploy these models in unstructured visual environments like people's homes, they will be unable to cope with the mismatch in data distribution. In such light, we present the first systematic effort in collecting a large dataset for robotic grasping in homes. First, to scale and parallelize data collection, we built a low cost mobile manipulator assembled for under 3K USD. Second, data collected using low cost robots suffer from noisy labels due to imperfect execution and calibration errors. To handle this, we develop a framework which factors out the noise as a latent variable. Our model is trained on 28K grasps collected in several houses under an array of different environmental conditions. We evaluate our models by physically executing grasps on a collection of novel objects in multiple unseen homes. The models trained with our home dataset showed a marked improvement of 43.7% over a baseline model trained with data collected in lab. Our architecture which explicitly models the latent noise in the dataset also performed 10% better than one that did not factor out the noise. We hope this effort inspires the robotics community to look outside the lab and embrace learning based approaches to handle inaccurate cheap robots.
연구 동기 및 목표
- 다양한 가정 환경에서 로봇 그라스 데이터를 수집하면 데이터셋 편향이 감소하고 일반화가 향상된다는 것을 Demonstrate 한다.
- 저가 로봇이 라벨 노이즈를 유발할 수 있으며 이 노이즈를 명시적으로 모델링하면 학습이 개선된다는 것을 Show 한다.
- unseen homes 및 objects에 일반화하는 확장 가능한 데이터 수집 및 학습 프레임워크를 제공한다.
제안 방법
- $3k 이하의 모빌 매니퓰레이터를 조립해 여섯 가정에서 28k 그라스 예제를 수집한다.
- 노이즈가 있는 라벨을 잠재 변수로 모델링하고 GPN(Grasp Prediction Network)과 NMN(Noise Modelling Network)으로 구성된 Robust-Grasp 아키텍처를 마지널라이제이션 층과 함께 학습한다.
- 패치 기반 그라스 공정: 후보 그라스 주변의 이미지 패치 아홱을 9개 샘플링하고 각 패치와 각 각도에 대한 성공 확률을 예측한다.
- 글로벌 씬 정보, 로봇 ID, 그라스 픽셀 위치를 사용하여 NMN으로 노이즈를 모델링하고, 명시적 EM 라벨 없이 NMN과 GPN을 공동으로 학습한다.
- 2단계 학습: 먼저 노이즈 패치를 사용해 GPN을 학습하고, 그다음 엔드 투 엔드 최적화를 통해 NMN과 GPN을 함께 학습한다.
- 사전 학습된 ResNet-18 특징을 활용하고 Adam으로 학습하며, held-out 데이터 및 실제 하드웨어(Real-LCA 및 Real-Sawyer)에서 평가한다.
실험 결과
연구 질문
- RQ1가정에서 수집한 그라스 데이터가 실험실에서 수집한 데이터에 비해 보이지 않는 가정 환경으로의 일반화를 향상시키는가?
- RQ2저가 로봇이 수집한 노이즈가 많은 데이터를 학습에 도움이 되도록 잠재 노이즈 모델링 접근 방식으로 향상시킬 수 있는가?
- RQ3Robust-Grasp가 DexNet 베이스라인 및 Patch-Grasp에 비해 새로운 객체/환경에서 어떻게 성능을 보이는가?
- RQ4가정 데이터로 학습한 모델의 랩 호스트 및 가정 배치에 미치는 영향은 무엇인가?
주요 결과
| 모델 | Train Dataset | Test Lab-Baxter | Test Lab-LCA | Test Home-LCA |
|---|---|---|---|---|
| Patch-Grasp [4] | Lab-Baxter [4] | 76.9 | 55.1 | 54.3 |
| Patch-Grasp | Lab-LCA | 58.0 | 69.1 | 56.5 |
| Patch-Grasp | Home-LCA | 71.5 | 71.3 | 69.9 |
| Robust-Grasp | Lab-LCA | 55.0 | 71.2 | 56.1 |
| Robust-Grasp (Ours) | Home-LCA (Ours) | 75.2 | 71.1 | 73.0 |
- Home-LCA에서 학습된 Robust-Grasp는 Home-LCA에서 테스트했을 때 Patch-Grasp보다 높은 보류 정확도(73.0%)를 달성하며 Lab-based 학습 베이스라인보다 우수하다.
- Home-LCA에서의 학습은 Real-LCA 하드웨어에서 평가 시 Lab-Baxter 데이터로 학습된 모델 대비 43.7% 향상을 보인다.
- Home-LCA에서 학습된 Robust-Grasp는 Real-LCA 장면에서 DexNet보다 대략 33% 더 나은 성능을 보여 가정의 비 ideal한 센싱에서도 강건함을 강조한다.
- 데이터의 잠재 노이즈를 제외하면 노이즈를 모델링하지 않는 모델보다 약 10%의 성능 향상을 Real-Sawyer 테스트에서 보인다(77.5% vs 56.25%).
- 데이터셋: 여섯 가정에서 약 28,000개의 그라스를 수집; 세 개의 보이지 않는 가정에서의 테스트는 실제 가정 환경으로의 일반화가 더 좋음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.