QUICK REVIEW

[논문 리뷰] End-to-end grasping policies for human-in-the-loop robots via deep reinforcement learning

Mohammadreza Sharif, Deniz Erdoğmuş|arXiv (Cornell University)|2021. 04. 26.

Muscle activation and electromyography studies참고 문헌 44인용 수 4

한 줄 요약

이 논문은 실제 인간의 접근 궤적을 사용하여 EMG 신호에 의존하지 않고 복잡한 신뢰성 문제를 해결함으로써 인간-로봇 협업 로봇 집게 제어를 위한 엔드 투 엔드 딥 강화학습(DRL) 정책을 제안한다. 몽테카를로 보정된 실제 궤적을 포함한 확률적 시뮬레이션 환경인 DEXTRON에서 훈련함으로써, 이 방법은 집게 작업에서 75%의 성공률을 달성하였으며, 정책 결정의 사후 해석 가능성과 실패 예측 기능을 제공하는 새로운 성공 모델을 도입하였다.

ABSTRACT

State-of-the-art human-in-the-loop robot grasping is hugely suffered by Electromyography (EMG) inference robustness issues. As a workaround, researchers have been looking into integrating EMG with other signals, often in an ad hoc manner. In this paper, we are presenting a method for end-to-end training of a policy for human-in-the-loop robot grasping on real reaching trajectories. For this purpose we use Reinforcement Learning (RL) and Imitation Learning (IL) in DEXTRON (DEXTerity enviRONment), a stochastic simulation environment with real human trajectories that are augmented and selected using a Monte Carlo (MC) simulation method. We also offer a success model which once trained on the expert policy data and the RL policy roll-out transitions, can provide transparency to how the deep policy works and when it is probably going to fail.

연구 동기 및 목표

EMG 기반 제어의 신뢰성 문제를 해결하기 위해 EMG 신호 의존도를 제거함으로써 보다 견고한 제어를 달성하고자 한다.
실제 인간의 접근 궤적에서 학습하는 정책을 개발하여 보다 자연스럽고 직관적인 로봇 집게 제어를 가능하게 하고자 한다.
실제 인간 운동 데이터와 몽테카를로 보정을 통한 훈련이 가능한 확률적 시뮬레이션 환경(DEXTRON)을 설계하고자 한다.
전문가 및 RL 정책의 전이 데이터를 기반으로 훈련된 성공 모델을 도입하여 정책 결정의 사후 해석 가능성과 실패 예측 기능을 제공하고자 한다.
정책 행동에 대한 투명성 제공을 통해 인간-로봇 상호 적응형 협업 집게를 가능하게 하고자 한다.

제안 방법

다양한 참가자들로부터 수집한 실제 인간의 접근 궤적을 사용하여 엔드 투 엔드 딥 강화학습 정책을 훈련한다.
몽테카를로 시뮬레이션을 통해 실제 궤적을 보정함으로써 데이터 다양성을 증가시키고 정책의 일반화 능력을 향상시킨다.
강화학습(Reinforcement Learning, RL)과 모방학습(Imitation Learning, IL)을 융합한 하이브리드 접근 방식, 특히 RLIL을 사용하여 정책 수렴 속도를 가속화한다.
dm_control 기반의 확률적 시뮬레이션 환경인 DEXTRON을 설계하여 지연되고 희박한 보상을 가진 인간-로봇 협업을 시뮬레이션한다.
전문가 및 RL 정책의 전이 전이 데이터를 기반으로 성공 모델을 훈련하여 최종 집게 성공 여부를 예측하고 정책 결정을 설명한다.
성공 모델을 실시간 정책 행동 피드백 제공을 위한 실패 및 성공 인식 기능으로 활용한다.

실험 결과

연구 질문

RQ1실제 인간의 접근 궤적을 기반으로 훈련된 엔드 투 엔드 강화학습 정책이 EMG 신호에 의존하지 않고도 견고하고 직관적인 집게 제어를 달성할 수 있는가?
RQ2모방학습과 강화학습을 융합함으로써 희박한 보상이 존재하는 확률적 환경에서 정책 학습이 어떻게 향상되는가?
RQ3전문가 및 RL 전이 데이터를 기반으로 훈련된 성공 모델이 정책 결정과 실패 유형에 대한 신뢰할 수 있는 사후 해석을 제공할 수 있는가?
RQ4실제 궤적 보정 기능이 내장된 DEXTRON 시뮬레이션 환경은 정책의 일반화 능력과 이식 가능성에 얼마나 기여하는가?
RQ5강화학습 정책의 해석 가능성과 투명성은 인간-로봇 협업에서 인간의 신뢰도 향상과 상호 적응 능력 향상에 어떤 영향을 미치는가?

주요 결과

RLIL 0.1 방법은 모든 테스트 방법 중 평균 누적 보상이 가장 높았으며, 최대 75%의 집게 성공률(15/20)을 달성하였다.
DEXTRON에서 순수한 강화학습 훈련은 희박한 보상 조건에도 불구하고 유용한 집게 정책을 학습할 수 있었으며, 유사한 환경에서 실패한 이전 방법들보다 뛰어난 성능을 보였다.
성공 모델은 샘플링된 5개의 전이 중 4개에서 실패 결과를 정확히 예측하였으며, 조기 손 닫힘과 같은 핵심 실패 요인을 식별하였다.
성공 모델은 비최적의 행동으로 인해 성공 창이 점차 줄어드는 것을 감지함으로써 실패 인식 능력을 입증하였으며, 특히 궤적 초기 단계에서 두드러졌다.
시뮬레이션에서 약 4시간(750k 프레임)의 합리적인 훈련 시간을 기록하여 실제 적용 가능성은 충분히 확보되었다.
성공 모델은 조기 손 닫기 명령으로 인한 충돌 위험 등의 정책 행동에 대한 실질적인 통찰을 제공하여 시스템의 투명성과 신뢰도를 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.