QUICK REVIEW

[논문 리뷰] Agnostic System Identification for Model-Based Reinforcement Learning

Stéphane Ross, J. Andrew Bagnell|arXiv (Cornell University)|2012. 03. 05.

Advanced Bandit Algorithms Research참고 문헌 16인용 수 47

한 줄 요약

이 논문은 모델 기반 강화 학습을 위한 반복적 온라인 학습 접근법을 제안하며, 진짜 시스템이 모델 클래스에 포함되지 않는 경우(일명 아그노스틱 설정)에도 강력한 성능 보장을 달성한다. 현재 정책 하에서 반복적으로 데이터를 수집하고, 무실수 온라인 학습 알고리즘을 사용해 모델을 업데이트함으로써, 표본 복잡도가 MDP 크기 대비가 아니라 모델 클래스 복잡도에만 비례하도록 보장하며, 표본 복잡도가 낮고, 어려운 헬리콥터 제어 과제에서 배치 방법과 이전의 MBRL 접근법보다 뛰어난 성능을 보인다.

ABSTRACT

A fundamental problem in control is to learn a model of a system from observations that is useful for controller synthesis. To provide good performance guarantees, existing methods must assume that the real system is in the class of models considered during learning. We present an iterative method with strong guarantees even in the agnostic case where the system is not in the class. In particular, we show that any no-regret online learning algorithm can be used to obtain a near-optimal policy, provided some model achieves low training error and access to a good exploration distribution. Our approach applies to both discrete and continuous domains. We demonstrate its efficacy and scalability on a challenging helicopter domain from the literature.

연구 동기 및 목표

기존 MBRL 방법이 진짜 시스템이 모델 클래스에 포함되어야 한다는 조건을 요구하는 한계를 해결하기 위해.
진짜 시스템이 모델 클래스에 표현되지 않을 수 있는 아그노스틱 설정에서도 성능 보장을 제공하기 위해.
표본 복잡도를 MDP 크기 대신 모델 클래스 복잡도에만 비례하도록 줄이기 위해.
실제 제어 응용에서 컨트롤러 설계와 시스템 식별을 번갈아 수행하는 반복적 실천을 공식화하고 개선하기 위해.
지연과 노이즈가 존재하는 어려운 시뮬레이션된 헬리콥터 도메인에서 이 방법의 효과성과 확장성을 입증하기 위해.

제안 방법

현재 모델에서 유도된 정책을 실행하고, 모델을 향상시키기 위해 새로운 데이터를 수집하는 반복적 알고리즘을 제안한다.
무실수 온라인 학습 알고리즘을 사용해 모델을 업데이트함으로써 누적 예측 오차가 선형 이하로 증가하도록 보장한다.
데이터 수집 기간 동안 상태-행동 공간의 충분한 커버리지 확보를 위해 행동에 대한 분포(탐색 분포)를 도입한다.
정책의 누적 손실을 모델 예측 오차와 연결하는 기반 기반 분석을 적용하여 아그노스틱 보장을 가능하게 한다.
헬리콥터 도메인의 비마르코프 동역학을 위해 시간에 따라 변하는 선형 모델을 사용하며, 각 시간 단계에서 모델 파라미터를 업데이트한다.
비교를 위한 기준선으로 배치 방법을 사용하며, 이는 초기 데이터에서 한 번만 모델을 피팅하고 갱신하지 않는다.

실험 결과

연구 질문

RQ1진짜 시스템이 모델 클래스에 포함되지 않는 아그노스틱 설정에서도 모델 기반 강화 학습 알고리즘이 강력한 성능 보장을 달성할 수 있는가?
RQ2적응형 데이터 수집을 갖춘 반복적 온라인 학습 접근법이 정적 데이터 수집에 의존하는 배치 방법보다 성능이 뛰어나게 되는가?
RQ3MBRL의 표본 복잡도를 MDP 크기에서 분리하여 모델 클래스 복잡도에만 의존하도록 만들 수 있는가?
RQ4탐색 분포의 선택이 학습된 정책의 수렴성과 성능에 어떤 영향을 미치는가?
RQ5제안된 방법이 정책 자유 강화 학습 방법과 비교해 손실 보장 측면에서 동등하거나 슈퍼어리어할 수 있는가?

주요 결과

제안된 반복적 방법인 DAgger는 다양한 실험 설정, 다양한 탐색 분포 조건에서도 배치 방법을 일관되게 능가한다.
DAgger는 배치 방법이 최적의 탐색 분포를 사용하더라도, 더 빠르게 수렴하고 테스트 트레이젝터리의 평균 총 비용을 더 낮게 유지한다.
DAgger는 학습된 정책이 방문한 상태에 대해 더 나은 모델을 학습함으로써, 노이즈와 지연이 존재하는 상황에서도 전문가 정책을 초월한 성능을 달성한다.
Abbeel의 방법은 첫 번째 반복에서만 전문가 시범을 활용하므로 지속적인 탐색이 부족하여 조기에 정체되며, DAgger보다 성능이 열 劣하다.
제한된 표본(각 반복당 100개)을 사용하는 정책 그래디언트 기반 모델 자유 강화 학습 방법은 여전히 미미한 향상만 보이며, 제안된 MBRL 접근법의 우수성을 부각시킨다.
노즈 인 펌널 동작에서, DAgger는 노이즈가 존재하는 상황에서도 4회 완전한 회전을 성공적으로 학습했지만, 초기 모델 기반 제어기는 완전히 실패했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.