QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning amidst Lifelong Non-Stationarity

Annie Xie, J. Michael Harrison|arXiv (Cornell University)|2020. 06. 18.

Reinforcement Learning in Robotics참고 문헌 60인용 수 25

한 줄 요약

이 논문은 LILAC를 제안하며, 잠재 변수 모델과 동역학 사전 분포를 통해 시간에 따라 변화하는 환경 파라미터의 잠재 표현을 학습함으로써 생애주기적 비정상성을 모델링하는 오프-폴리시 딥 강화학습 알고리즘이다. 추론된 작업 파라미터에 조건을 부여한 정책과 크리틱은 지속적이고 구조적인 동역학 및 보상 변화가 있는 환경에서 표준 오프-폴리시 방법(SAC 및 PPO)을 능가하며, 에피소드 간 변화에도 불구하고 에피소드 리셋이 필요 없이 높은 성능을 유지한다.

ABSTRACT

As humans, our goals and our environment are persistently changing throughout our lifetime based on our experiences, actions, and internal and external drives. In contrast, typical reinforcement learning problem set-ups consider decision processes that are stationary across episodes. Can we develop reinforcement learning algorithms that can cope with the persistent change in the former, more realistic problem settings? While on-policy algorithms such as policy gradients in principle can be extended to non-stationary settings, the same cannot be said for more efficient off-policy algorithms that replay past experiences when learning. In this work, we formalize this problem setting, and draw upon ideas from the online learning and probabilistic inference literature to derive an off-policy RL algorithm that can reason about and tackle such lifelong non-stationarity. Our method leverages latent variable models to learn a representation of the environment from current and past experiences, and performs off-policy RL with this representation. We further introduce several simulation environments that exhibit lifelong non-stationarity, and empirically find that our approach substantially outperforms approaches that do not reason about environment shift.

연구 동기 및 목표

관측되지 않은 시간에 따라 변화하는 파라미터로 인해 환경의 동역학과 보상이 시간이 지남에 따라 변화하는 생애주기적 비정상성 문제를 해결하기 위해.
정상성을 가정하는 표준 오프-폴리시 방법의 한계를 극복하고 과거 경험을 활용해 변화하는 환경에 적응할 수 있는 오프-폴리시 강화학습 알고리즘을 개발하기 위해.
작업 파라미터가 에피소드 간에 확률적으로 변화하는 POMDP의 구조적 변형인 동적 파라미터 MDP(DP-MDP)로 문제를 수식화하기 위해.
유추된 파라미터에 조건을 부여한 정책을 학습함으로써 비정상 설정에서 효율적이고 안정적인 학습을 가능하게 하기 위해, 환경의 잠재 표현과 함께 동시에 학습하는 방식으로.
지속적이고 주기적이며 변동률이 다른 동역학과 보상 변화가 있는 시뮬레이션 환경에서의 검증을 통해 강인성과 일반화 능력을 입증하기 위해.

제안 방법

환경을 관찰에서 은닉된 작업 파라미터 z를 추론하는 잠재 변수 모델로 모델링하여 비정상적인 MDP를 표현한다.
작업 파라미터의 시간에 따른 변화를 모델링하기 위해 동역학 사전분포 pϕ(z′|z)를 활용하여 향후 환경 변화를 예측할 수 있도록 한다.
유추된 잠재 파라미터 z에 조건을 부여한 정책 및 크리틱 네트워크를 사용하여 에이전트가 예측 가능한 변화에 대응하는 행동을 적응시킬 수 있도록 한다.
강화학습을 확률적 추론의 프레임워크로 기반으로 삼아, 그래픽 모델을 사용해 정책 학습과 잠재 상태 추정을 통합한다.
부분 경로에서 z를 효율적으로 추정하기 위해 인식 네트워크를 통한 약어 추론(amortized inference)을 사용하여 에피소드 도중 실시간 적응을 가능하게 한다.
오프-폴리시 경험 재현과 잠재 변수 모델링을 결합함으로써, 환경 파라미터가 에피소드 간에 변화하더라도 샘플 효율적인 학습이 가능하도록 한다.

실험 결과

연구 질문

RQ1오프-폴리시 딥 강화학습 알고리즘이 동역학과 보상이 시간이 지남에 따라 변화하는 환경에서 생애주기적 비정상성을 효과적으로 다룰 수 있는가?
RQ2에이전트는 명시적 지도 없이 과거 경험만으로 미래의 환경 변화를 예측할 수 있는가?
RQ3표준 오프-폴리시 방법에 비해 잠재 변수 모델이 비정상 제어 과제에서 샘플 효율성과 성능을 얼마나 향상시킬 수 있는가?
RQ4환경 변화 속도가 빠르거나 주기적인 경우에도 이 방법은 강인한가?
RQ5동시에 동역학과 보상 함수에 변화가 발생하는 환경에 대해 모델은 일반화 가능한가?

주요 결과

지속적이고 주기적인 비정상성 환경에서 LILAC는 PPO 및 SAC보다 뚜렷이 뛰어난 성능을 보이며, 기준 방법이 적응에 실패하는 동안도 높은 수익을 유지한다.
목표 이동 속도가 매 에피소드당 0.2에서 0.8 라디안로 변하는 Sawyer 도달 과제에서, LILAC의 성능은 환경 변화 속도에 거의 영향을 받지 않아 강인함을 입증한다.
정상 조건에서는 LILAC가 SAC와 유사한 성능을 기록하여, 비정상성이 없는 상황에서도 뛰어난 샘플 효율성을 유지함을 확인한다.
2D 오픈 월드 환경에서는 리셋 없이도 연속적인 비에피소드적 변화를 성공적으로 처리하며 장기적인 수렴 정책을 학습한다.
HC WindVel 환경에서 동역학과 보상에 동시에 변화가 발생하는 상황에서도 LILAC는 효과적으로 대응하며, 다른 방법들은 수렴하지 못함을 입증한다.
LILAC의 비정상 설정과 정상 설정 간 성능 격차는 향후 z의 추정이 완벽하지 않기 때문이며, 이는 온라인 추론 또는 베이지안 필터링을 통해 향상 가능함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.