[논문 리뷰] Sim2Real View Invariant Visual Servoing by Recurrent Control
이 논문은 과거 행동과 관측의 기억을 통해 자기 캘리브레이션을 학습함으로써 시점에 관계없이 시각 기반 서보 제어를 가능하게 하는 순환 딥 뉴럴 네트워크 컨트롤러를 제안한다. 이는 시뮬레이션에서 훈련하고 최소한의 실제 세계 데이터로 보정함으로써 실현된다. 이 방법은 새로운 시점에서 미리 보지 않은 물체를 대상으로 한 실제 세계의 도달 작업에서 70.83%의 성공률을 달성하여 명시적 캘리브레이션 없이도 강건한 일반화 성능을 입증한다.
Humans are remarkably proficient at controlling their limbs and tools from a wide range of viewpoints and angles, even in the presence of optical distortions. In robotics, this ability is referred to as visual servoing: moving a tool or end-point to a desired location using primarily visual feedback. In this paper, we study how viewpoint-invariant visual servoing skills can be learned automatically in a robotic manipulation scenario. To this end, we train a deep recurrent controller that can automatically determine which actions move the end-point of a robotic arm to a desired object. The problem that must be solved by this controller is fundamentally ambiguous: under severe variation in viewpoint, it may be impossible to determine the actions in a single feedforward operation. Instead, our visual servoing system must use its memory of past movements to understand how the actions affect the robot motion from the current viewpoint, correcting mistakes and gradually moving closer to the target. This ability is in stark contrast to most visual servoing methods, which either assume known dynamics or require a calibration phase. We show how we can learn this recurrent controller using simulated data and a reinforcement learning objective. We then describe how the resulting model can be transferred to a real-world robot by disentangling perception from control and only adapting the visual layers. The adapted model can servo to previously unseen objects from novel viewpoints on a real-world Kuka IIWA robotic arm. For supplementary videos, see: https://fsadeghi.github.io/Sim2RealViewInvariantServo
연구 동기 및 목표
- 명시적 캘리브레이션 없이도 새로운 시점과 미리 보지 않은 물체에 대해 시각 기반 로봇 서보 제어의 일반화를 가능하게 하기.
- 큰 시점 변화에서 행동-효과 맵핑의 모호성을 극복하기 위해 과거 행동과 관측의 기억을 활용하기.
- 강화 학습을 사용해 시뮬레이션 환경에서 제어 정책을 훈련하고, 최소한의 실제 데이터 보정을 통해 실제 세계로 전이하기.
- 인식과 제어를 분리하여 시뮬레이션에서 실제 세계로 전이할 때 시각적 특징 적응만을 허용하기.
- 수동으로 설계된 특징 없이도 이미지 관측만으로 종단 간 시점 불변 서보 제어를 끝내기까지 학습하기.
제안 방법
- LSTM 기반의 순환 컨트롤러가 쿼리 이미지와 현재 이미지의 특징을 연결하여 카르테시안 공간에서 종단 효과기구의 이동을 예측한다.
- 컨트롤러는 현재 이미지와 이전에 선택된 행동을 모두 입력으로 사용하여 이미지 공간에서 행동-효과 관계를 암묵적으로 학습할 수 있다.
- 별도의 Q-값 헤드가 몬테카를로 수익 예측을 사용하여 행동 품질을 예측하며, 이는 강화 학습 훈련을 지원한다.
- 보조적인 국소화 손실은 예측된 객체 위치와 진짜 위치 간의 거리를 최소화하여 시각적 특징 학습을 돕는다.
- 시뮬레이션에서 실제 세계로의 전이를 위해, 소수의 레이블이 붙은 실제 세계 이미지로 시각 컨볼루션 계층만을 보정한다.
- 다양한 물체 위치와 시점에서 랜덤화된 시뮬레이션 환경에서 훈련되며, 지도 학습을 위해 시연된 궤적을 사용한다.
실험 결과
연구 질문
- RQ1과도한 시점 변화 하에서 명시적 캘리브레이션 없이도 순환 신경망이 시각적 행동 효과를 자기 캘리브레이션할 수 있는가?
- RQ2전적으로 시뮬레이션에서 훈련된 정책이 새로운 물체와 시점에서 실제 세계의 로봇 조작에 얼마나 잘 일반화되는가?
- RQ3실제 세계 작업에서 성능을 향상시키기 위해 시각적 특징만을 보정하는 것이 얼마나 효과적인가?
- RQ4한 번의 컨트롤러가 시각적 방해 요소가 있는 단일 물체 및 이중 물체 시나리오 모두에 일반화될 수 있는가?
- RQ5시점 변화 하에서 행동-효과 맵핑의 모호성을 효과적으로 해결하기 위해 순환 기억을 사용할 경우, 피드포워드 기반 보다 성능이 뛰어나게 되는가?
주요 결과
- 모델은 두 개의 물체가 있는 실제 세계의 도달 작업에서 70.83%의 성공률을 기록하여, 새로운 시점과 방해 요소에 대한 강건한 일반화 성능을 입증했다.
- 소수의 실제 세계 이미지를 사용해 시각적 특징을 보정함으로써 성능이 크게 향상되었으며, 특히 시각적으로 유사한 상황에서 두드러진 성능 향상을 보였다.
- 과거 행동과 관측의 기억을 유지함으로써 초기 운동 오차를 성공적으로 보정하여 자기 캘리브레이션을 달성했다.
- 훈련 시뮬레이션에 포함되지 않은 새로운 물체에 대해서도 시스템이 강력한 제로샷 일반화 성능을 보였다.
- 정성적 결과에서, 보정된 모델이 순수하게 시뮬레이션에서만 훈련된 모델보다 시각적으로 유사한 물체를 더 잘 구분하는 것으로 나타났다.
- 시점 변화 하에서 행동-효과 맵핑의 모호성을 효과적으로 해결함으로써, 비순환 기반 보다 우수한 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.