QUICK REVIEW

[논문 리뷰] Self-Curriculum Model-based Reinforcement Learning for Shape Control of Deformable Linear Objects

Zhaowei Liang, Song Wang|arXiv (Cornell University)|2026. 02. 25.

3D Shape Modeling and Analysis인용 수 0

한 줄 요약

본 논문은 모델 기반 강화학습과 온라인 시각 서빙을 결합한 두 단계 프레임워크를 제시하여, 역곡률 대형 변형을 포함한 변형 가능한 선형 물체(DLO)의 형태 제어를 효율적이고 정밀하게 수행하며 제로샷 시뮬레이션에서 현실로의 전이성을 보장한다.

ABSTRACT

Precise shape control of Deformable Linear Objects (DLOs) is crucial in robotic applications such as industrial and medical fields. However, existing methods face challenges in handling complex large deformation tasks, especially those involving opposite curvatures, and lack efficiency and precision. To address this, we propose a two-stage framework combining Reinforcement Learning (RL) and online visual servoing. In the large-deformation stage, a model-based reinforcement learning approach using an ensemble of dynamics models is introduced to significantly improve sample efficiency. Additionally, we design a self-curriculum goal generation mechanism that dynamically selects intermediate-difficulty goals with high diversity through imagined evaluations, thereby optimizing the policy learning process. In the small-deformation stage, a Jacobian-based visual servo controller is deployed to ensure high-precision convergence. Simulation results show that the proposed method enables efficient policy learning and significantly outperforms mainstream baselines in shape control success rate and precision. Furthermore, the framework effectively transfers the policy trained in simulation to real-world tasks with zero-shot adaptation. It successfully completes all 30 cases with diverse initial and target shapes across DLOs of different sizes and materials. The project website is available at: https://anonymous.4open.science/w/sc-mbrl-dlo-EB48/

연구 동기 및 목표

변형 가능한 선형 물체(DLO)의 큰 변형 및 역곡률 구성에서의 정밀한 형태 제어 문제를 다룬다.
모델 기반 학습과 엔셀름 다이나믹스 모델을 사용한 RL의 샘플 효율성을 향상시킨다.
학습 중 목표의 난이도와 다양성을 균형 있게 조정하기 위한 Self-curriculum 목표 생성 메커니즘을 개발한다.
온라인 야코비안 기반 시각 서빙을 통해 작은 변형 구간에서의 높은 정밀 수렴성을 보장한다.
다양한 DLO에 걸쳐 추가적인 실제 세계 학습 없이도 시뮬레이션에서 실제로의 전이(시뮬-현실 전이)를 입증한다.

제안 방법

두 단계 프레임워크: 대형 변형 단계는 모델 기반 RL 및 Self-curriculum 목표를 사용하고, 소형 변형 단계는 온라인 야코비안 기반 시각 서빙을 사용한다.
Bi-LSTM 다이나믹스 모델의 앙상블이 DLO 상태 전이을 예측하며, 엘리트 모델이 합성 데이터를 생성하여 SAC 기반 정책 학습을 보강한다.
관측은 현재 DLO 형태 X, 엔드 이펙터 자세 r, 목표 형태 Xd를 포함하고, 행동은 변위 증가 Δr이다.
Self-curriculum 목표 생성은 상상된 평가를 사용해 중간 난이도 목표를 식별하고, 다양성을 보장하기 위해 Weighted Farthest Point Sampling을 결합한다.
소형 변형 단계에서 시각 서빙 제어기에 대해 온라인으로 야코비안 행렬을 추정하여 정밀한 수렴을 제공한다.
정책 학습은 형상 오차 e가 임계값 아래로 떨어지면 두 단계 간 전환되며, RL은 목표에 근접하도록 최적화되고 시각 서빙은 정밀성을 보장한다.

실험 결과

연구 질문

RQ1모델 기반 RL이 엔셀럼 다이나믹스로 복잡한 대형 변형 DLO 형상을 샘플 효율적으로 학습하게 할 수 있는가?
RQ2초기 형태와 목표 형태가 크게 달라질 때 Self-curriculum 목표 생성 전략이 정책 학습을 향상시키는가?
RQ3제안된 두 단계 프레임워크가 시뮬레이션에서 실제의 DLO 조작으로 일반화될 수 있는가(크기와 재료에 대해)?
RQ4온라인 야코비안 기반 시각 서빙 단계가 작은 변형 구간에서 최종 정밀도에 어떤 영향을 미치는가?

주요 결과

제안된 방법은 시뮬레이션에서 직선 및 다양한 초기 조건에서 최고 성공률과 평균 최소 형태 오차를 달성한다.
난이도 필터링 및 다양성 샘플링이 포함된 Self-curriculum 메커니즘은 학습 안정성과 정책 일반화를 크게 향상시킨다.
다중 샘플러를 갖춘 모델 기반 RL은 엔템 다이나믹스 대비 샘플 효율성을 현저히 개선한다.
두 단계 접근법은 시뮬레이트-현실 전이에서 로봇이 추가 온라인 재학습 없이 세 가지 DLO에서 모든 실제 작업을 완료하도록 강건함을 보인다.
MPC, Visual Servo, RL-Only 기반선과 비교할 때 제안 방법이 대부분의 시나리오에서 더 높은 정확도와 더 빠른 수렴을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.