QUICK REVIEW

[논문 리뷰] Learning Visual Servoing with Deep Features and Fitted Q-Iteration

Alex X. Lee, Sergey Levine|arXiv (Cornell University)|2017. 03. 31.

Advanced Vision and Imaging인용 수 39

한 줄 요약

이 논문은 사전 훈련된 딥 페처(VGG-16)와 이중선형 동역학 모델을 사용하여 시각적 변동성과 가림 현상에도 불구하고 강건한 목표 추적을 가능하게 하는 샘플 효율적인 시각 서보링 방법을 제안한다. 피팅된 Q-반복과 페처 가중치화를 결합함으로써 단지 20개의 궤적 샘플만으로도 효과적인 제어를 달성한다—표준 모델-프리 강화학습 대비 100배 이상의 샘플 효율성 향상을 입증하고 픽셀 기반 또는 키포인트 기반 방법보다 뛰어난 성능을 보인다.

ABSTRACT

Visual servoing involves choosing actions that move a robot in response to observations from a camera, in order to reach a goal configuration in the world. Standard visual servoing approaches typically rely on manually designed features and analytical dynamics models, which limits their generalization capability and often requires extensive application-specific feature and model engineering. In this work, we study how learned visual features, learned predictive dynamics models, and reinforcement learning can be combined to learn visual servoing mechanisms. We focus on target following, with the goal of designing algorithms that can learn a visual servo using low amounts of data of the target in question, to enable quick adaptation to new targets. Our approach is based on servoing the camera in the space of learned visual features, rather than image pixels or manually-designed keypoints. We demonstrate that standard deep features, in our case taken from a model trained for object classification, can be used together with a bilinear predictive model to learn an effective visual servo that is robust to visual variation, changes in viewing angle and appearance, and occlusions. A key component of our approach is to use a sample-efficient fitted Q-iteration algorithm to learn which features are best suited for the task at hand. We show that we can learn an effective visual servo on a complex synthetic car following benchmark using just 20 training trajectory samples for reinforcement learning. We demonstrate substantial improvement over a conventional approach based on image pixels or hand-designed keypoints, and we show an improvement in sample-efficiency of more than two orders of magnitude over standard model-free deep reinforcement learning algorithms. Videos are available at http://rll.berkeley.edu/visual_servoing .

연구 동기 및 목표

수동적 특징 설계 없이 시각적 변동성(시점, 조명, 가림)에 일반화되는 시각 서보링 시스템을 개발한다.
특히 20개 이하의 궤적 샘플을 사용해 새로운 목표물에 빠르게 적응할 수 있도록 한다.
표준 모델-프리 딥 강화학습을 초월해 시각 서보링의 샘플 효율성을 향상시킨다.
목표 추적을 위해 관련 시각적 특징을 자동으로 선택하는 제어 정책을 학습한다.
수동으로 설계된 특징과 분석적 동역학 모델을 학습된 표현과 예측 모델로 대체한다.

제안 방법

이미지넷 분류 작업에서 사전 훈련된 VGG-16 페처를 시각 상태 표현으로 사용하여 수동적 특징 설계를 방지한다.
카메라 운동이 시각적 페처 변화에 미치는 영향을 예측하기 위해 이중선형 모델을 활용하여 페처 공간에서의 동역학 모델링을 수행한다.
가중치가 부여된 유클리드 거리의 최소화를 목표로 하는 정책을 학습하기 위해 선형 Q-함수 근사기법을 사용한 피팅된 Q-반복을 적용한다.
Q-값 학습을 통한 페처 가중치화 메커니즘을 도입하여 정책이 목표 추적을 위해 분류 능력이 높은 특징에 집중할 수 있도록 한다.
장기 제어 목표를 최적화하면서도 계산 가능성을 유지하기 위해 Q-반복 과정에서 1단계 앞서보기(lookahead)를 적용한다.
전체 정책을 단 20개의 전문가 시뮬레이션 샘플만을 사용해 엔드 투 엔드로 훈련하여 매우 높은 데이터 효율성을 확보한다.

실험 결과

연구 질문

RQ1분류 네트워크에서 사전 훈련된 딥 페처를 미세조정 없이도 시각 서보링에 효과적으로 사용할 수 있는가?
RQ2로봇 운동 하에서 시각 서보링의 페처 변화를 정확하게 예측할 수 있는 이중선형 동역학 모델이 가능한가?
RQ3학습된 페처 가중치화를 갖춘 피팅된 Q-반복이 최소한의 데이터로 강건한 목표 추적을 달성할 수 있는가?
RQ4제안된 방법은 픽셀 기반 또는 키포인트 기반 시각 서보링과 비교해 샘플 효율성과 강건성 면에서 어떻게 다른가?
RQ5이 방법은 가림과 시점 변화가 있는 복잡하고 동적인 환경으로 일반화될 수 있는가?

주요 결과

이 방법은 단지 20개의 전문가 궤적 샘플만을 사용해 복잡한 시뮬레이션 벤치마크에서 효과적인 자동차 추적을 달성하여 놀라운 데이터 효율성을 입증했다.
TRPO로 훈련된 픽셀 기반 딥 강화학습 정책보다 훨씬 더 많은 데이터가 필요로 하였고 성능도 열 劣한 것으로 나타났다.
ORB 기반 및 C-COT 트래커 기반 IBVS 방법보다 성능과 속도 면에서 뛰어나며, 후자의 경우 1Hz에 불과한 반면 제안된 방법은 16Hz로 작동했다.
학습된 동역학과 Q-반복을 적용한 사전 훈련된 VGG 페처의 사용은 시점 변화, 조명 변화, 부분적 가림에 대해 강건성을 확보했다.
표준 모델-프리 딥 강화학습 알고리즘 대비 샘플 효율성이 2개 이상의 주기 수준 향상되었다.
피팅된 Q-반복을 통해 학습된 페처 가중치화 메커니즘이 분류 능력이 높은 페처를 성공적으로 선택하여 혼잡한 환경에서도 강건한 목표 추적을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.