QUICK REVIEW

[논문 리뷰] Variance Reduction for Reinforcement Learning in Input-Driven Environments

Hongzi Mao, Shaileshh Bojja Venkatakrishnan|arXiv (Cornell University)|2018. 07. 06.

Reinforcement Learning in Robotics인용 수 51

한 줄 요약

본 논문은 입력 기반 MDP에서 정책 그래디언트 방법을 위한 입력 의존적 베이스라인을 도입하고, 바이어스 없는 분산 감소를 증명하며, 다양한 입력 시퀀스에 걸쳐 베이스라인을 학습하는 메타학습 접근법을 제안한다. 큐잉, 네트워킹, MuJoCo 과제에 걸친 실험은 학습 안정성 및 정책의 개선을 보여준다.

ABSTRACT

We consider reinforcement learning in input-driven environments, where an exogenous, stochastic input process affects the dynamics of the system. Input processes arise in many applications, including queuing systems, robotics control with disturbances, and object tracking. Since the state dynamics and rewards depend on the input process, the state alone provides limited information for the expected future returns. Therefore, policy gradient methods with standard state-dependent baselines suffer high variance during training. We derive a bias-free, input-dependent baseline to reduce this variance, and analytically show its benefits over state-dependent baselines. We then propose a meta-learning approach to overcome the complexity of learning a baseline that depends on a long sequence of inputs. Our experimental results show that across environments from queuing systems, computer networks, and MuJoCo robotic locomotion, input-dependent baselines consistently improve training stability and result in better eventual policies.

연구 동기 및 목표

외생적 입력 프로세스가 동역학과 보상에 영향을 미치는 환경에서 강화학습의 필요성을 제시한다.
상태 의존적 베이스라인이 입력 주도 MDP에서 분산 감소에 미흡함을 보이고 입력 의존적 베이스라인을 제안한다.
입력 의존적 베이스라인의 바이어스 없는 성질과 최적 형태를 도출한다.
입력 의존적 베이스라인을 효율적으로 학습하기 위한 실용적 학습 방법(다중값 네트워크와 메타학습)을 제안한다.
다양한 과제에서 향상된 학습 안정성 및 정책 성능을 보여준다.

제안 방법

외부 입력 프로세스 z를 갖는 입력 주도 MDP를 정의하고, 상태 전이가 (s, a, z)에 의존한다.
입력 의존적 베이스라인 b(omega, z)가 A2C, TRPO 및 관련 방법의 정책 그래디언트 추정치에 바이어스를 도입하지 않는다는 것을 보인다.
최적의 입력 의존적 베이스라인 공식 b*(omega, z)를 도출하고 실용적 대리식 b(omega, z) = E_{a ~ pi}[Q(omega, a, z)]를 제시한다.
두 가지 효율적 학습 전략을 도입한다: (i) 고정된 입력 인스턴스에 대한 다중값 네트워크, (ii) 특정 입력 시퀀스에 적합하도록 메타 값 네트워크를 조정하는 메타 학습(MAML 기반) 접근법.
학습 중 입력 시퀀스를 반복하는 입력 재현성은 입력 의존적 베이스라인의 효과적 추정 가능성을 보인다.
베이스라인을 이산 행동(부하 분산, 비트레이트 적응) 및 연속 행동(MuJoCo 보행에 교란) 도메인에 적용한다.

실험 결과

연구 질문

RQ1입력 의존적 베이스라인이 바이어스를 도입하지 않으면서 입력 주도 MDP에서 정책 그래디언트 방법의 분산을 줄일 수 있는가?
RQ2입력 의존적 베이스라인의 최적 형태는 무엇이며 실무에서 어떻게 효율적으로 학습할 수 있는가?
RQ3다양한 입력 주도 환경에서 입력 의존적 베이스라인이 학습 안정성 및 최종 정책 성능을 개선하는가?
RQ4여러 입력 시퀀스에 걸쳐 입력 의존적 베이스라인 학습을 촉진하기 위해 메타 학습이나 반복 입력 학습이 어떻게 작용하는가?

주요 결과

입력 의존적 베이스라인은 상태 의존적 베이스라인과 비교하여 그래디언트 분산을 일관되게 감소시키고 정책 성능을 향상시킨다.
독립적 입력 프로세스하에서 A2C 및 TRPO와 같은 정책 그래디언트 방법에 대해 입력 의존적 베이스라인은 바이어스가 없다.
최적의 입력 의존적 베이스라인은 관찰과 미래 입력 시퀀스의 함수이며, 실무적으로는 V(omega, z) 같은 조건부 가치 함수를 학습할 수 있다.
시뮬레이션 로봇 보행에서 입력 의존적 베이스라인을 사용하는 TRPO는 상태 의존 베이스라인에 비해 테스트 보상이 최대 3배 더 좋다.
이산 행동 과제(부하 분산 및 비트레이트 적응)에서 입력 의존적 베이스라인은 분산을 줄이고 테스트 보상을 약 25–33% 향상시킨다.
메타 베이스라인(MAML 기반)은 학습 중 다수의 입력 프로세스를 활용해 단일 베이스라인보다 종종 더 높은 성능을 발휘한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.