QUICK REVIEW

[논문 리뷰] EPOpt: Learning Robust Neural Network Policies Using Model Ensembles

Aravind Rajeswaran, Sarvjeet Ghotra|arXiv (Cornell University)|2016. 10. 05.

Reinforcement Learning in Robotics참고 문헌 30인용 수 144

한 줄 요약

EPOpt는 시뮬레이션 모델의 앙상블에 대해 적대적 학습을 수행하고 대상 도메인 데이터를 사용하여 소스 분포를 적응시킴으로써 강인한 신경 정책을 학습한다.

ABSTRACT

Sample complexity and safety are major challenges when learning policies with reinforcement learning for real-world tasks, especially when the policies are represented using rich function approximators like deep neural networks. Model-based methods where the real-world target domain is approximated using a simulated source domain provide an avenue to tackle the above challenges by augmenting real data with simulated data. However, discrepancies between the simulated source domain and the target domain pose a challenge for simulated training. We introduce the EPOpt algorithm, which uses an ensemble of simulated source domains and a form of adversarial training to learn policies that are robust and generalize to a broad range of possible target domains, including unmodeled effects. Further, the probability distribution over source domains in the ensemble can be adapted using data from target domain and approximate Bayesian methods, to progressively make it a better approximation. Thus, learning on a model ensemble, along with source domain adaptation, provides the benefit of both robustness and learning/adaptation.

연구 동기 및 목표

모형 불일치와 안전 문제에 직면한 물리 제어를 위한 강건한 강화 학습을 동기 부여한다.
앙상블 학습을 사용하여 소스 모델 분포의 일반화된 정책을 학습하는 방법을 제안한다.
대상 도메인 데이터를 사용한 소스 모델 분포의 적응을 도입하여 목표 역학을 더 잘 근사하도록 한다.

제안 방법

매개변수 분포에서 샘플링된 소스-도메인 모델의 앙상블을 사용하여 정책 업데이트를 위한 궤적을 생성한다.
최소화 학습을 위해 절대 최악 모델에 초점을 맞추는 CVaR (epsilon 분위수) 목표를 최적화한다.
최악의 epsilon 분수의 궤적을 사용하여 정책을 업데이트하기 위한 배치 정책 최적화 하위루틴(TRPO 기반)을 적용한다.
대상 도메인 궤적을 사용하여 근사 베이시안 업데이트를 통해 소스-도메인 분포를 적응시켜 모델 매개변수를 다듬는다.
선택적으로, 대상 도메인이 크게 다를 때 적합한 형태로 모델 샘플의 가중치를 재조정하기 위해 중요도 샘플링을 적용한다.

실험 결과

연구 질문

RQ1모델 분포(앙상블)에서의 학습이 단일 모델 학습에 비해 모형 불일치에 대한 정책 강건성을 향상시키는가?
RQ2epsilon-CVaR 기반 EPOpt 변형이 대상 도메인으로의 직접전이 성능에 어떤 영향을 미치는가?
RQ3EPOpt가 소스 도메인 앙상블이 포착하지 못한 비모델링 효과에 대해 강건한 정책을 학습할 수 있는가?
RQ4제한된 대상 도메인 데이터를 사용하여 소스 분포를 대상 도메인에 얼마나 효율적으로 적응시킬 수 있는가?
RQ5전이 학습을 위한 Bayesian RL에서 표본 최적화와 모델 적응의 비교 이점은 무엇인가?

주요 결과

EPOpt-ε로 학습된 정책은 Hopper와 Half-Ccheetah 벤치마크에서 단일 모델 TRPO보다 다양한 모델 인스턴스에 걸쳐 일반화한다.
EPOpt(0.1)은 다양한 모델 매개변수에서 강한 직접전이 성능과 함께 매우 강인한 정책을 산출한다.
소스 도메인에 다양한 매개변수를 포함하면 EPOpt은 비모델링 효과에 대해 강인하지만, 소스 분포에 질량이 포함될 때 강인성이 향상된다.
모델 적응은 비교적 적은 대상 도메인 데이터로도 소스 분포를 대상 도메인에 맞출 수 있어 시간에 따라 대상 성능을 향상시킨다.
EPOpt의 직접전이 성능은 보다 보수적이고 강건한 전략을 채택한다고 해서 크게 저하되지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.