QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning for High Precision Assembly Tasks

Tadanobu Inoue, Giovanni De Magistris|arXiv (Cornell University)|2017. 08. 14.

Robot Manipulation and Learning참고 문헌 7인용 수 29

한 줄 요약

이 논문은 표준 힘-토크 센서와 위치 센서만을 사용하여 7축 로봇 암이 마이크로미터 이하의 간극을 가진 고정밀 피팅 작업을 수행할 수 있도록 하는 딥 강화학습 기반 접근법을 제안한다. LSTM 네트워크를 활용한 이 방법은 다양한 설정에서 100% 성공률를 기록하며, 초깃위치 및 각도 오차에 대해 뛰어난 내구성을 보이며, 전통적인 고정 패tern 기반 방법보다 빠르고 더 유연한 성능을 발휘한다.

ABSTRACT

High precision assembly of mechanical parts requires accuracy exceeding the robot precision. Conventional part mating methods used in the current manufacturing requires tedious tuning of numerous parameters before deployment. We show how the robot can successfully perform a tight clearance peg-in-hole task through training a recurrent neural network with reinforcement learning. In addition to saving the manual effort, the proposed technique also shows robustness against position and angle errors for the peg-in-hole task. The neural network learns to take the optimal action by observing the robot sensors to estimate the system state. The advantages of our proposed method is validated experimentally on a 7-axis articulated robot arm.

연구 동기 및 목표

산업용 로봇의 위치 정밀도를 초월하는 고정밀 로봇 조립 작업에 대한 도전 과제를 해결하기 위해.
기존의 프로그래밍 및 힘 감지 제어 방법에서 요구되는 수작업적 파rameter 조정의 시간 소모 문제를 줄이기 위해.
교수 없이, 시도와 실수를 통해 센서 피드백을 이용해 자율적으로 피팅 기술을 학습할 수 있는 적응형 학습 기반 접근법을 개발하기 위해.
초깃위치 오프셋, 각도 오차, 그리고 좁은 간극과 같은 실제 환경의 변동 요소에 대해 방법의 내구성을 검증하기 위해.
표준 산업용 센서만을 사용하여 순환 신경망을 활용한 강화학습을 산업 조립 작업에 구현할 수 있는지를 입증하기 위해.

제안 방법

시스템은 6축 힘-토크 센서와 관절 위치 인코더에서 온 순차적 센서 데이터를 처리하기 위해 순환 신경망(LSTM)을 사용하여 로봇의 상태를 추정한다.
상태 벡터는 $\mathbf{s} = [F_x, F_y, F_z, M_x, M_y, \tilde{P}_x, \tilde{P}_y]$ 로 정의되며, $F$ 및 $M$ 은 평균 힘과 모멘트이고, $\tilde{P}_x, \tilde{P}_y$ 는 추정된 위치 오차이다.
강화학습 에이전트는 두 단계 작업을 학습한다: (1) 구멍을 찾는 탐색 단계, (2) 정렬 및 삽입을 위한 삽입 단계로, 희박한 밀도 형태의 보상 구조를 사용한다.
희박한 밀도 형태의 보상은 학습을 이끌기 위해 사용된다: 밀도 보상은 삽입 중 정렬을 장려하고, 희박한 보상은 성공적 완료 시에만 발동된다 (정의: $\Delta P_z > 19\,\mathrm{mm}$).
행동 공간은 이산적이다. $z$, $x$, $y$ 방향으로의 제어 동작과 고정된 힘 및 회전 명령을 포함하는 다섯 가지 사전 정의된 행동이 존재한다.
이 방법은 온라인으로 딥 강화학습을 사용하여 훈련되며, 정책 네트워크는 누적된 희박한 밀도 형태의 보상 기반으로 업데이트된다.

실험 결과

연구 질문

RQ1LSTM 정책를 갖춘 딥 강화학습 에이전트는 명시적 프로그래밍이나 파rameter 조정 없이 고정밀 피팅 작업을 학습할 수 있는가?
RQ2학습된 정책은 구멍의 초깃위치 오차와 각도 오차에 대해 얼마나 내구성이 있는가?
RQ3로봇의 내재된 위치 정밀도를 초월하는 좁은 간극(예: 10 μm)에서도 신뢰할 수 있는 성능을 달성할 수 있는가?
RQ4실행 시간과 성공률 측면에서 기존의 고정 패턴 기반 힘 감지 제어 방법과 비교해 본다면 학습된 방법의 성능는 어떠한가?
RQ5동일한 정책를 사용하여 다양한 간극 크기와 기울기 각도에 대해 일반화가 가능한가?

주요 결과

제안된 방법은 모든 테스트 설정에서 100회의 시행 전부에서 100% 성공률를 기록했으며, 10 μm의 좁은 간극과 최대 1.6°의 기울기 각도를 포함한 상황에서도 성공했다.
10 μm 간극, 3 mm 초깃위치 오프셋, 0° 기울기 조건에서 평균 총 실행 시간은 3.47초였으며, 기존 방법의 약 5초보다 빠르게 기록했다.
20 μm 간극과 1.6° 기울기 조건에서 평균 총 시간은 4.36초였으며, 증가된 오차에 대한 내구성을 입증했다.
3 mm 오프셋 조건에서 탐색 단계의 평균 시간은 2.26초였으며, 큰 초깃위치 오차에 대한 적응성을 보였다.
1.6° 기울기 조건에서 삽입 단계 시간은 2.31초로 증가했으며, 이는 더 많은 정렬 노력이 필요했음을 반영하지만, 성공은 그대로 달성되었다.
이 방법은 더 큰 오차와 더 좁은 간극 조건에서 기존의 고정 패턴 기반 방법보다 빠르고 더 내구성이 있어 성능가 뛰어났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.