QUICK REVIEW

[논문 리뷰] Benchmarking Offline Reinforcement Learning on Real-Robot Hardware

Nico Gürtler, Sebastian Blaes|arXiv (Cornell University)|2023. 07. 28.

Reinforcement Learning in Robotics인용 수 11

한 줄 요약

논문은 TriFinger 플랫폼에서 수집된 실제 로봇 손재주 조작 데이터셋(Push와 Lift)을 offline RL 벤치마크에 활용하고, 시뮬레이션 데이터와 실제 데이터 간의 성능 차이 및 비최적 궤적의 영향을 강조한다.

ABSTRACT

Learning policies from previously recorded data is a promising direction for real-world robotics tasks, as online learning is often infeasible. Dexterous manipulation in particular remains an open problem in its general form. The combination of offline reinforcement learning with large diverse datasets, however, has the potential to lead to a breakthrough in this challenging domain analogously to the rapid progress made in supervised learning in recent years. To coordinate the efforts of the research community toward tackling this problem, we propose a benchmark including: i) a large collection of data for offline learning from a dexterous manipulation platform on two tasks, obtained with capable RL agents trained in simulation; ii) the option to execute learned policies on a real-world robotic system and a simulation for efficient debugging. We evaluate prominent open-sourced offline reinforcement learning algorithms on the datasets and provide a reproducible experimental setup for offline reinforcement learning on real systems.

연구 동기 및 목표

실제 로봇 손재주 조작 데이터셋을 제공하여 offline RL 벤치마킹에 활용.
시뮬레이션과 실제 TriFinger 데이터 모두에서 offline RL 알고리즘을 비교.
offline RL 성능에서 데이터 품질, 비최적 궤적, 시뮬레이-실 간 간극 분석.
향후 연구를 위한 접근 가능한 원격 평가 설정 제공.

제안 방법

TriFinger에서 두 가지 과제(Push 및 Lift)에 대해 도메인 무작위화로 시뮬레이션에서 온라인 RL을 통해 전문가 정책 데이터를 수집.
도메인 무작위화를 활용한 GPU 가속 병렬 시뮬레이션으로 전문가 정책 학습을 수행하여 시뮬레이션에서 실세계로의 전이 가능하게 함.
여러 데이터셋 변형(Expert, Half-Expert, Weak&Expert, Mixed)을 만들고 실제 로봇과 시뮬레이션 데이터셋을 함께 공개.
고정 하이퍼파라미터와 시드 기반 평가로 d3rlpy의 오픈 소스 offline RL 알고리즘(BC, CRR, AWAC, CQL, IQL)을 이 데이터셋에서 벤치마킹.
재현 가능한 테스트를 위한 원격으로 실제 로봇 클러스터와 PyBullet 기반 시뮬레이터에 대한 평가 프로토콜 제공.

실험 결과

연구 질문

RQ1최신 offline RL 알고리즘이 실제 로봇 손재주 데이터에서 시뮬레이션 데이터에 비해 얼마나 잘 작동하는가?
RQ2데이터 품질(전문가 대 혼합 대 약한 데이터)이 Push와 Lift 과제에서 offline RL 성능에 어떤 영향을 미치는가?
RQ3비최적 궤적의 존재가 실제 대 시뮬레이션 데이터에서 offline RL 학습 및 정책 품질에 어떤 영향을 미치는가?
RQ4지연, 노이즈 및 실제 접촉 역학이 시뮬레이션 성능과 실제 성능 사이의 간극을 얼마나 설명하는가?
RQ5시뮬레이션 데이터에서 offline으로 학습한 정책이 보지 않은 실제 하드웨어 인스턴스에 일반화될 수 있는가?

주요 결과

데이터	BC	CRR	AWAC	CQL	IQL
Push-Sim-Expert	0.95	0.83±0.02	0.94±0.04	0.92±0.03	0.03±0.01	0.88±0.04
Push-Sim-Half-Expert	0.95	0.71±0.05	0.79±0.05	0.79±0.02	0.05±0.02	0.70±0.06
Push-Sim-Weak&Expert	0.53	0.53±0.09	0.88±0.03	0.83±0.05	0.17±0.03	0.66±0.14
Push-Sim-Mixed	0.76	0.53±0.04	0.09±0.10	0.84±0.06	0.02±0.01	0.69±0.07
Push-Real-Expert	0.92	0.74±0.05	0.87±0.07	0.80±0.03	0.54±0.13	0.75±0.08
Push-Real-Half-Expert	0.92	0.66±0.08	0.78±0.04	0.76±0.10	0.48±0.08	0.70±0.08
Push-Real-Weak&Expert	0.51	0.48±0.10	0.84±0.06	0.69±0.06	0.14±0.04	0.68±0.05
Push-Real-Mixed	0.49	0.29±0.06	0.30±0.06	0.61±0.09	0.02±0.02	0.66±0.08

Push 데이터세트에서 offline RL 방법이 대체로 성공하지만, 실제 로봇 데이터는 시뮬레이션 데이터에 비해 성능 차이가 나타난다.
CQL은 Push 시뮬레이션에서 성능이 낮지만 실제 데이터에서 향상되어 실제 환경의 더 넓은 데이터 분포를 시사한다.
CRR 및 AWAC가 일반적으로 데이터셋에서 다른 알고리즘보다 우수하고, 하이퍼파라미터 튜닝 후 IQL도 경쟁력이 있다.
Lift에서 CQL은 최적화에도 불구하고 효과적으로 학습하지 못하며, 실제 로봇 데이터는 시뮬레이션 데이터보다 전문가 성능과의 격차가 더 크다.
비최적 궤적은 offline RL 알고리즘의 성과를 흐트러뜨려 성공률을 감소시키며, 특히 Weak&Expert 데이터에서 Lift에서 두드러진다.
실제 데이터로 학습된 정책은 전문가 데이터에 비해 시뮬레이션에 비해 성능 격차가 더 크며, 이는 실제 세계의 역학이 중요한 도전 과제임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.