QUICK REVIEW

[논문 리뷰] Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs

Jianzhun Du, Joseph Futoma|arXiv (Cornell University)|2020. 06. 29.

Reinforcement Learning in Robotics참고 문헌 56인용 수 25

한 줄 요약

이 논문은 신경 미분방정식(ODEs)을 사용하여 연속 시간 동역학을 모델링함으로써, 반응형 마르코프 결정 프로세스(SMDP)를 위한 모델 기반 강화학습 프레임워크를 제안한다. ODE-RNN 및 잠재-ODE 아키텍처를 통해 행동과 시간을 신경 ODE에 통합함으로써, 높은 샘플 효율성을 달성하고, 비정규적인 시간 간격 간의 정책 전이를 가능하게 하여, 상호작용 데이터가 극히 적은 연속 시간 제어 및 헬스케어 환경에서 모델리스 기반 보조 기반 보다 뛰어난 성능을 발휘한다.

ABSTRACT

We present two elegant solutions for modeling continuous-time dynamics, in a novel model-based reinforcement learning (RL) framework for semi-Markov decision processes (SMDPs), using neural ordinary differential equations (ODEs). Our models accurately characterize continuous-time dynamics and enable us to develop high-performing policies using a small amount of data. We also develop a model-based approach for optimizing time schedules to reduce interaction rates with the environment while maintaining the near-optimal performance, which is not possible for model-free methods. We experimentally demonstrate the efficacy of our methods across various continuous-time domains.

연구 동기 및 목표

표준 딥 강화학습이 연속 시간 환경에서 제한을 보이는 문제를 해결하기 위해, 연속 동역학을 포착하는 모델 기반 접근법을 개발한다.
신경 ODE를 사용하여 상태 전이와 간격 시간을 함께 모델링함으로써, 환경 상호작용을 최소화한 효율적인 정책 학습을 가능하게 한다.
측정 및 행동 스케줄이 다른 환경 간 정책 전이를 지원하여, 상호작용 빈도를 감소시키되 성능을 유지한다.
숨겨진 상태를 동역학 모델에 통합하여 부분 관측 가능한 환경을 처리한다.
연속 시간 제어 및 헬스케어 도메인에서 모델리스 기반 및 이산 시간 기반 보다 뛰어난 성능을 입증한다.

제안 방법

신경 ODE를 확장하여 행동과 시간을 입력으로 포함함으로써, 반응형 마르코프 결정 프로세스에서 연속 시간 동역학을 모델링할 수 있도록 한다.
두 가지 아키텍처를 제안한다: ODE-RNN은 시간 연속 동역학을 처리하기 위해 순환 구조를 사용하고, 잠재-ODE는 잠재 ODE를 사용한 인코더-디코더 구조로 상태 표현을 모델링한다.
SMDP에서 상태 전이와 간섭 간격 분포를 동시에 학습할 수 있는 통합 프레임워크에 동역학 모델을 통합한다.
학습된 동역학 모델을 활용해 다양한 상호작용 스케줄에서 정책 계획 및 최적화를 수행함으로써, 환경 상호작용 빈도를 감소시킬 수 있다.
잠재 궤적에서 관측 시퀀스를 재구성함으로써, 변분 추론을 사용해 잠재 ODE를 훈련한다.
한 시간 스케줄에서 훈련된 정책을 다른 스케줄로 전이하는 데 적용하여, 비정규적 샘플링에 대한 강건성을 입증한다.

실험 결과

연구 질문

RQ1비정규적인 관측 및 행동 간격을 가진 반응형 마르코프 결정 프로세스에서 신경 ODE가 연속 시간 동역학을 효과적으로 모델링할 수 있는가?
RQ2신경 ODE를 사용한 모델 기반 강화학습 접근법이 모델리스 방법보다 상당히 적은 환경 상호작용으로 높은 성능을 달성할 수 있는가?
RQ3한 상호작용 스케줄에서 학습된 정책이 다른 스케줄로 효과적으로 전이되어 상호작용 빈도를 감소시키되 성능을 유지할 수 있는가?
RQ4ODE 기반 모델이 연속 시간 동역학을 모델링할 때 표준 RNN 및 시간 인식 RNN 변종보다 어떻게 비교되는가?
RQ5숨겨진 상태를 유지함으로써 모델이 부분 관측 가능한 환경을 처리할 수 있는가?

주요 결과

모든 테스트 환경에서 ODE-RNN 및 잠재-ODE 모델이 RNN, Δt-RNN, 감소-RNN, 잠재-RNN보다 연속 시간 동역학을 더 잘 모델링한다.
HIV 환경에서, 잠재 상태를 포함한 모델 기반 정책(π^MB(a|s_partial,z))가 모델리스 및 일반 모델 기반 정책보다 더 빠르게 뛰어난 성능을 달성한다.
강풍이 부는 격자도시 및 악시드로브 태스크에서, 잠재-ODE는 모든 시간 이산화 수준에서 누적 보상 측면에서 모든 기준선을 초월했으며, 특히 비정규적 또는 굵은 샘플링 간격에서 두드러진 성능을 보였다.
비정규 시간 스케줄에서 훈련된 정책은 정규 스케줄으로 일반화가 잘 되었으며, 잠재-ODE는 시간 간격 τ가 1에서 7으로 증가하더라도 높은 성능를 유지했다.
HIV 환경에서 모델 기반 접근법은 일정 간섭 대비 최대 70%까지 상호작용 빈도를 감소시켰고, 거의 최적의 성능를 유지했다.
ODE-RNN 및 잠재-ODE 모델은 τ = 1에서 τ = 7까지 다양한 시간 간격에 대해 안정적인 성능를 보였으며, RNN 기반 모델과 달리 성능 저하가 심각하지 않았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.