QUICK REVIEW

[논문 리뷰] Leveraging Demonstrations for Deep Reinforcement Learning on Robotics Problems with Sparse Rewards

Matej Vecerík, Todd Hester|arXiv (Cornell University)|2017. 07. 27.

Reinforcement Learning in Robotics참고 문헌 20인용 수 509

한 줄 요약

이 논문은 데모를 이용한 DDPG 확장(DDPGfD)을 통해 로봇 삽입 작업에서 sparse rewards를 학습하고, 우선순위 재생 버퍼, n-step 반환, 다중 업데이트 학습을 사용하여 표준 DDPG보다 시뮬레이션과 실제 하드웨어 모두에서 성능을 능가한다.

ABSTRACT

We propose a general and model-free approach for Reinforcement Learning (RL) on real robotics with sparse rewards. We build upon the Deep Deterministic Policy Gradient (DDPG) algorithm to use demonstrations. Both demonstrations and actual interactions are used to fill a replay buffer and the sampling ratio between demonstrations and transitions is automatically tuned via a prioritized replay mechanism. Typically, carefully engineered shaping rewards are required to enable the agents to efficiently explore on high dimensional control problems such as robotics. They are also required for model-based acceleration methods relying on local solvers such as iLQG (e.g. Guided Policy Search and Normalized Advantage Function). The demonstrations replace the need for carefully engineered rewards, and reduce the exploration problem encountered by classical RL approaches in these domains. Demonstrations are collected by a robot kinesthetically force-controlled by a human demonstrator. Results on four simulated insertion tasks show that DDPG from demonstrations out-performs DDPG, and does not require engineered rewards. Finally, we demonstrate the method on a real robotics task consisting of inserting a clip (flexible object) into a rigid object.

연구 동기 및 목표

희소 보상으로 도전적인 로봇 조작 작업에서 보상 설계를 데모가 대체될 수 있음을 Demonstrate한다.
데모를 비정책(on-off policy) RL 프레임워크에 통합하여 데이터 효율성과 학습 안정성을 향상시킨다.
우선순위 재생, n-step 반환, 반복 업데이트가 데모를 사용할 때 학습을 강화하는지 확인한다.
네 가지 시뮬레이션 삽입 작업과 하나의 실제 로봇 삽입 작업에서 접근 방식을 검증한다.

제안 방법

학습 시작 전에 재생 버퍼에 데모 전이를 포함하도록 DDPG를 확장한다.
정보성이 높은 경험에 편향을 두고 데모와 에이전트의 전이를 샘플링하기 위해 우선순위 경험 재생을 사용한다.
1-step 및 n-step 반환 손실을 결합하여 보상을 희소하게 주행에 걸쳐 전파한다.
환경당 여러 차례의 그래디언트 업데이트를 수행하여 데이터 효율성을 높이고 안정성을 유지한다.
안정성을 위해 배우-평가 네트워크에 L2 정규화를 적용한다.
과도한 힘을 제한하기 위해 임피던스 컨트롤러를 통한 안전 제약을 실제 로봇 실험에 적용한다.

실험 결과

연구 질문

RQ1희소 보상 로봇 삽입 작업에서 데모가 손으로 설계된 형태 보상(shape) 보상을 대체할 수 있는가?
RQ2우선순위 재생이 결합된 비정책 프레임워크에 데모를 통합하면 표준 DDPG에 비해 학습 속도가 빨라지고 성능이 향상되는가?
RQ31-step 및 n-step 반환이 데모가 보강된 RL에서 희소 보상을 전달하는 데 어떻게 기여하는가?
RQ4데모 데이터의 양을 달리하는 것이 학습 효율성과 최종 성능에 어떤 영향을 미치는가?
RQ5시뮬레이션 작업과 실제 로봇 실험 간 결과가 일관되는가?

주요 결과

DDPGfD는 테스트된 모든 작업에서 DDPG를 능가하며, DDPG가 잘 조정된 shaping 보상을 사용할 때도 비슷한 성과를 내는 경우가 있다.
DDPGfD는 희소 보상으로도 효과적으로 학습하며, 종종 보상 설계가 있는 경우의 성능과 같거나 더 뛰어나다.
클립 삽입 작업에서 DDPGfD는 데모만으로 학습하는 경우보다 2–4배 더 빠르게 삽입을 학습하며 더 넓은 학습 안정성을 보인다.
단 하나의 데모만으로도 희소 보상 클립 삽입 작업 해결이 가능하며, 50–100 데모 이후 수익 감소가 나타난다.
실제 로봇 실험에서 DDPGfD는 설계된 보상 없이도 강력한 삽입 정책을 달성하며, shaping 보상을 사용하는 DDPG보다 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.