QUICK REVIEW

[논문 리뷰] Learning Deep Policies for Physics-Based Manipulation in Clutter.

Wissam Bejjani, Rafael Papallas|arXiv (Cornell University)|2018. 03. 21.

Robot Manipulation and Learning참고 문헌 10인용 수 1

한 줄 요약

이 논문은 혼잡한 환경에서 물리 기반의 조작을 위한 딥 정책를 훈련하기 위해 애널로그 학습과 강화 학습을 조합한 하이브리드 학습 접근법을 제안한다. 먼저 시범으로부터 행동가치 함수를 학습하고, 이를 봉인 계획기와 강화 학습을 통해 개선함으로써, 불확실한 동역학 조건에도 불구하고 실제 환경에서 뛰어난 성능을 달성한다. 이는 시뮬레이션과 실제 환경에서의 혼잡한 조작 작업에서 베이스라인 애널로그 학습 및 계획 전용 방법보다 뛰어난 성능을 보인다.

ABSTRACT

Uncertainty in modeling real world physics makes transferring traditional open-loop motion planning techniques from simulation to the real world particularly challenging. Available closed-loop policy learning approaches, for physics-based manipulation tasks, typically either focus on single object manipulation, or rely on imitation learning, which inherently constrains task generalization and performance to the available demonstrations. In this work, we propose an approach to learn a policy for physics-based manipulation in clutter, which enables the robot to react to the uncertain dynamics of the real world. We start with presenting an imitation learning technique which compiles demonstrations from a sampling-based planner into an action-value function encoded as a deep neural network. We then use the learned action-value function to guide a look-ahead planner, giving us a control policy. Lastly, we propose to refine the deep action-value function through reinforcement learning, taking advantage of the look-ahead planner. We evaluate our approach in a physics-enabled simulation environment with artificially injected uncertainty, as well as in a real world task of manipulation in clutter.

연구 동기 및 목표

물리적 동역학의 불확실성으로 인해 시뮬레이션에서의 운동 계획을 실제 세계로 전이하는 데 도전하는 것.
단일 객체 작업에 국한되거나 제한된 일반화 능력을 가진 애널로그 학습에만 의존하는 기존의 닫힌 루프 정책 학습 방법의 한계를 극복하는 것.
로봇이 혼잡한 환경에서 조작 도중 예측 불가능한 실제 물리 법칙에 대해 동적으로 반응할 수 있는 정책을 개발하는 것.
애널로그 학습과 강화 학습을 융합하여 가용한 시범의 범위를 초월한 작업 일반화와 성능 향상을 도모하는 것.

제안 방법

다양한 시범을 생성하기 위해 샘플링 기반 계획기를 사용하고, 이를 바탕으로 애널로그 학습을 통해 행동가치 함수를 인코딩하는 딥 네ural 네트워크로 컴iles한다.
학습된 행동가치 함수를 봉인 계획기에 통합하여 실행 중 동적 변화를 처리할 수 있는 반응형 제어 정책을 생성한다.
봉인 계획기를 정책 롤아웃 메커니즘으로 사용하여 샘플 효율성과 정책 품질을 향상시키기 위해 강화 학습을 통해 딥 행동가치 함수를 개선한다.
실제 세계와 유사한 조건에서의 견고성과 일반화 능력을 테스트하기 위해 물리 기반 시뮬레이션 환경에 인위적 불확실성을 도입한다.
최종 정책를 혼잡한 환경에서의 불확실성이 있는 시뮬레이션 환경과 실제 조작 작업 모두에서 평가한다.
빠른 초기 정책 학습을 위한 애널로그 학습과 정교화 및 적응을 위한 강화 학습 간의 상호보완적 상호작용을 활용하여 견고하고 일반화 가능한 제어 정책을 달성한다.

실험 결과

연구 질문

RQ1시범으로부터 학습된 딥 행동가치 함수가 혼잡한 조작 환경에서 실시간 의사결정을 위한 봉인 계획기를 효과적으로 이끌 수 있는가?
RQ2애널로그 학습과 강화 학습을 융합함으로써 불확실한 물리적 동역학 조건 하에서 정책의 견고성과 일반화 능력은 어떻게 향상되는가?
RQ3제안된 방법은 시뮬레이션과 실제 세계의 조작 작업에서 순수 애널로그 학습 또는 계획 전용 기반선보다 얼마나 뛰어나게 성능을 발휘하는가?
RQ4봉인 계획기의 통합은 정책이 혼잡한 환경에서의 동적 상호작용을 다룰 수 있는 능력을 어떻게 향상시키는가?

주요 결과

제안된 방법은 기존의 애널로그 학습 및 계획 전용 기반선 대비 시뮬레이션 및 실제 환경에서의 혼잡한 조작 작업에서 뛰어난 성능을 달성한다.
학습된 행동가치 함수를 봉인 계획기와 통합함으로써 로봇은 실시간 실행 중의 동적 변화와 불확실성에 효과적으로 대응할 수 있다.
강화 학습을 통한 정교화 과정은 시범 트랙젝터리의 분포를 초월한 정책의 견고성과 일반화 능력을 크게 향상시킨다.
의도적으로 시뮬레이션에서 실제 세계로의 도메인 갭을 도입한 상황에서도 성공적으로 실제 환경으로의 전이가 이루어져, 물리적 불확실성에 대한 강력한 적응 능력을 보여준다.
하이브리드 접근법은 전문가 시범에 대한 의존도를 줄이면서도 높은 작업 성공률를 유지함으로써 샘플 효율성과 확장성 향상을 시사한다.
최종 정책는 물체 재배치 및 예측 불가능한 동역학에 대해 더 뛰어난 내구성을 보이며, 복잡한 혼잡한 시나리오에서 기반선을 능가하는 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.