[논문 리뷰] Bayesian Domain Randomization for Sim-to-Real Transfer.
BayRn는 베이지안 최적화를 사용하여 실제 세계 타겟 도메인에서 샘플링함으로써 훈련 중에 도메인 파라미터 분포를 적응적으로 학습하는 시뮬레이션에서 실제 세계로의 전이 방법을 제안한다. 이는 사전 지식에 대한 의존도를 감소시키고 직접적이고 강건한 정책 전이를 가능하게 하여 비선형 흔들기 작업에서 고정 분포 도메인 랜덤화보다 성능이 뛰어나다.
When learning policies for robot control, the real-world data required is typically prohibitively expensive to acquire, so learning in simulation is a popular strategy. Unfortunately, such polices are often not transferable to the real world due to a mismatch between the simulation and reality, called 'reality gap'. Domain randomization methods tackle this problem by randomizing the physics simulator (source domain) according to a distribution over domain parameters during training in order to obtain more robust policies that are able to overcome the reality gap. Most domain randomization approaches sample the domain parameters from a fixed distribution. This solution is suboptimal in the context of sim-to-real transferability, since it yields policies that have been trained without explicitly optimizing for the reward on the real system (target domain). Additionally, a fixed distribution assumes there is prior knowledge about the uncertainty over the domain parameters. Thus, we propose Bayesian Domain Randomization (BayRn), a black box sim-to-real algorithm that solves tasks efficiently by adapting the domain parameter distribution during learning by sampling the real-world target domain. BayRn utilizes Bayesian optimization to search the space of source domain distribution parameters which produce a policy that maximizes the real-word objective, allowing for adaptive distributions during policy optimization. We experimentally validate the proposed approach by comparing against two baseline methods on a nonlinear under-actuated swing-up task. Our results show that BayRn is capable to perform direct sim-to-real transfer, while significantly reducing the required prior knowledge.
연구 동기 및 목표
- 시뮬레이션 정책이 현실에서 실패하는 '현실 격차' 문제를 해결하기 위해 시뮬레이션에서 실제 세계로의 정책 전이 문제를 다루는 것.
- 도메인 파라미터 불확실성에 대한 사전 지식을 가정하는 고정 분포 도메인 랜덤화의 한계를 극복하는 것.
- 실제 세계 성능을 최대화하기 위해 훈련 중에 소스 도메인 분포를 적응적으로 조정하여 효율적인 시뮬레이션에서 실제 세계로의 전이를 가능하게 하는 것.
- 도메인 파라미터에 대한 전문가 주석 기반 사전 지식에 대한 의존도를 줄이기 위해 상호작용을 통해 최적의 분포를 학습하는 것.
- 현실 격차를 명시적으로 모델링할 필요 없이 실제 세계 보상 최적화를 위한 블랙박스형, 종단 간(end-to-end) 방법을 개발하는 것.
제안 방법
- BayRn는 정책 훈련 중에 소스 도메인 분포의 파라미터를 탐색하기 위해 베이지안 최적화를 사용한다.
- 훈련 중에 도메인 파라미터(예: 질량, 마찰계수, 중력)는 실제 세계 성능 피드백에 기반해 적응적으로 업데이트되는 분포에서 샘플링된다.
- 알고리즘은 분포 파라미터를 최적화할 초수준 파rameter로 간주하고, 실제 세계 보상을 目적 함수로 사용한다.
- 확률적 대체 모델(예: 가우시안 프로세스)을 사용하여 분포 파라미터와 실제 세계 정책 성능 간의 관계를 모델링한다.
- 이 방법은 아키텍처 변경 없이도 작동하는 블랙박스 방식이며, 정책 네트워크나 시뮬레이터에 대한 수정이 필요 없다.
- 실제 세계 롤아웃을 사용하여 정책 성능을 평가하고 도메인 분포 최적화를 이끌어내어 사전 가정의 필요성을 최소화한다.
실험 결과
연구 질문
- RQ1적응적인 도메인 분포 학습이 고정 분포 도메인 랜덤화보다 시뮬레이션에서 실제 세계로의 정책 전이를 향상시킬 수 있는가?
- RQ2BayRn는 시뮬레이션에서 실제 세계로의 전이에서 도메인 파라미터 불확실성에 대한 사전 지식이 얼마나 줄어들 수 있는가?
- RQ3BayRn는 미세조정 없이도 실제 로봇 시스템에 직접 정책 전이를 얼마나 효과적으로 가능하게 하는가?
- RQ4도메인 분포에 대한 베이지안 최적화가 기준 방법보다 빠른 수렴과 더 나은 실제 세계 성능을 이끌어내는가?
주요 결과
- BayRn는 어떤 실제 세계 미세조정 없이도 비선형 부족구동 흔들기 작업에서 직접적인 시뮬레이션에서 실제 세계로의 전이를 성공적으로 수행하였다.
- 표준 도메인 랜덤화에 비해 도메인 파라미터 분포에 대한 사전 지식 의존도가 크게 감소하였다.
- 사용자 성공률 측정 기준으로 BayRn는 기준 도메인 랜덤화 방법보다 더 높은 실제 세계 성능을 달성하였다.
- 베이지안 최적화를 통한 적응적 분포 학습은 실제 세계에서 더 빠른 수렴과 더 강건한 정책을 이끌어내었다.
- 실제 세계 피드백이 소스 도메인 분포 학습을 효과적으로 이끌 수 있음을 보여주며, 이는 전이 가능성 향상에 기여하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.