Skip to main content
QUICK REVIEW

[논문 리뷰] Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs

Jianzhun Du, Joseph Futoma|arXiv (Cornell University)|2020. 06. 29.
Reinforcement Learning in Robotics참고 문헌 56인용 수 25
한 줄 요약

이 논문은 신경 미분방정식(ODEs)을 사용하여 연속 시간 동역학을 모델링함으로써, 반응형 마르코프 결정 프로세스(SMDP)를 위한 모델 기반 강화학습 프레임워크를 제안한다. ODE-RNN 및 잠재-ODE 아키텍처를 통해 행동과 시간을 신경 ODE에 통합함으로써, 높은 샘플 효율성을 달성하고, 비정규적인 시간 간격 간의 정책 전이를 가능하게 하여, 상호작용 데이터가 극히 적은 연속 시간 제어 및 헬스케어 환경에서 모델리스 기반 보조 기반 보다 뛰어난 성능을 발휘한다.

ABSTRACT

We present two elegant solutions for modeling continuous-time dynamics, in a novel model-based reinforcement learning (RL) framework for semi-Markov decision processes (SMDPs), using neural ordinary differential equations (ODEs). Our models accurately characterize continuous-time dynamics and enable us to develop high-performing policies using a small amount of data. We also develop a model-based approach for optimizing time schedules to reduce interaction rates with the environment while maintaining the near-optimal performance, which is not possible for model-free methods. We experimentally demonstrate the efficacy of our methods across various continuous-time domains.

연구 동기 및 목표

  • 표준 딥 강화학습이 연속 시간 환경에서 제한을 보이는 문제를 해결하기 위해, 연속 동역학을 포착하는 모델 기반 접근법을 개발한다.
  • 신경 ODE를 사용하여 상태 전이와 간격 시간을 함께 모델링함으로써, 환경 상호작용을 최소화한 효율적인 정책 학습을 가능하게 한다.
  • 측정 및 행동 스케줄이 다른 환경 간 정책 전이를 지원하여, 상호작용 빈도를 감소시키되 성능을 유지한다.
  • 숨겨진 상태를 동역학 모델에 통합하여 부분 관측 가능한 환경을 처리한다.
  • 연속 시간 제어 및 헬스케어 도메인에서 모델리스 기반 및 이산 시간 기반 보다 뛰어난 성능을 입증한다.

제안 방법

  • 신경 ODE를 확장하여 행동과 시간을 입력으로 포함함으로써, 반응형 마르코프 결정 프로세스에서 연속 시간 동역학을 모델링할 수 있도록 한다.
  • 두 가지 아키텍처를 제안한다: ODE-RNN은 시간 연속 동역학을 처리하기 위해 순환 구조를 사용하고, 잠재-ODE는 잠재 ODE를 사용한 인코더-디코더 구조로 상태 표현을 모델링한다.
  • SMDP에서 상태 전이와 간섭 간격 분포를 동시에 학습할 수 있는 통합 프레임워크에 동역학 모델을 통합한다.
  • 학습된 동역학 모델을 활용해 다양한 상호작용 스케줄에서 정책 계획 및 최적화를 수행함으로써, 환경 상호작용 빈도를 감소시킬 수 있다.
  • 잠재 궤적에서 관측 시퀀스를 재구성함으로써, 변분 추론을 사용해 잠재 ODE를 훈련한다.
  • 한 시간 스케줄에서 훈련된 정책을 다른 스케줄로 전이하는 데 적용하여, 비정규적 샘플링에 대한 강건성을 입증한다.

실험 결과

연구 질문

  • RQ1비정규적인 관측 및 행동 간격을 가진 반응형 마르코프 결정 프로세스에서 신경 ODE가 연속 시간 동역학을 효과적으로 모델링할 수 있는가?
  • RQ2신경 ODE를 사용한 모델 기반 강화학습 접근법이 모델리스 방법보다 상당히 적은 환경 상호작용으로 높은 성능을 달성할 수 있는가?
  • RQ3한 상호작용 스케줄에서 학습된 정책이 다른 스케줄로 효과적으로 전이되어 상호작용 빈도를 감소시키되 성능을 유지할 수 있는가?
  • RQ4ODE 기반 모델이 연속 시간 동역학을 모델링할 때 표준 RNN 및 시간 인식 RNN 변종보다 어떻게 비교되는가?
  • RQ5숨겨진 상태를 유지함으로써 모델이 부분 관측 가능한 환경을 처리할 수 있는가?

주요 결과

  • 모든 테스트 환경에서 ODE-RNN 및 잠재-ODE 모델이 RNN, Δt-RNN, 감소-RNN, 잠재-RNN보다 연속 시간 동역학을 더 잘 모델링한다.
  • HIV 환경에서, 잠재 상태를 포함한 모델 기반 정책(π^MB(a|s_partial,z))가 모델리스 및 일반 모델 기반 정책보다 더 빠르게 뛰어난 성능을 달성한다.
  • 강풍이 부는 격자도시 및 악시드로브 태스크에서, 잠재-ODE는 모든 시간 이산화 수준에서 누적 보상 측면에서 모든 기준선을 초월했으며, 특히 비정규적 또는 굵은 샘플링 간격에서 두드러진 성능을 보였다.
  • 비정규 시간 스케줄에서 훈련된 정책은 정규 스케줄으로 일반화가 잘 되었으며, 잠재-ODE는 시간 간격 τ가 1에서 7으로 증가하더라도 높은 성능를 유지했다.
  • HIV 환경에서 모델 기반 접근법은 일정 간섭 대비 최대 70%까지 상호작용 빈도를 감소시켰고, 거의 최적의 성능를 유지했다.
  • ODE-RNN 및 잠재-ODE 모델은 τ = 1에서 τ = 7까지 다양한 시간 간격에 대해 안정적인 성능를 보였으며, RNN 기반 모델과 달리 성능 저하가 심각하지 않았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.