QUICK REVIEW

[논문 리뷰] Optimization Issues in KL-Constrained Approximate Policy Iteration

Nevena Lazić, Botao Hao|arXiv (Cornell University)|2021. 02. 11.

Advanced Bandit Algorithms Research인용 수 3

한 줄 요약

이 논문은 근사 정책 반복에서 KL 발산 정규화와 제약 간의 최적화 트레이드오프를 조사하며, TRPO와 같은 제약 방법이 단순한 밴딧 문제조차도 수렴하지 못하고 선형 회귀를 초래할 수 있음을 보여주며, 정규화된 업데이트는 하위선형 회귀와 더 나은 최적화 환경을 보장함을 입증한다. 특히 소프트맥스 정책에서 두드러진다.

ABSTRACT

Many reinforcement learning algorithms can be seen as versions of approximate policy iteration (API). While standard API often performs poorly, it has been shown that learning can be stabilized by regularizing each policy update by the KL-divergence to the previous policy. Popular practical algorithms such as TRPO, MPO, and VMPO replace regularization by a constraint on KL-divergence of consecutive policies, arguing that this is easier to implement and tune. In this work, we study this implementation choice in more detail. We compare the use of KL divergence as a constraint vs. as a regularizer, and point out several optimization issues with the widely-used constrained approach. We show that the constrained algorithm is not guaranteed to converge even on simple problem instances where the constrained problem can be solved exactly, and in fact incurs linear expected regret. With approximate implementation using softmax policies, we show that regularization can improve the optimization landscape of the original objective. We demonstrate these issues empirically on several bandit and RL environments.

연구 동기 및 목표

KL-제약 정책 반복과 KL-정규화 정책 반복의 최적화 안정성 및 수렴 성질을 조사한다.
단순한 밴딧 환경조차도 수렴하지 못하고 선형 기대 회귀를 유발하는 제약 방법의 근본적 결함을 규명한다.
특히 소프트맥스 정책 파arameterization 하에서 정규화된 vs. 제약된 설정의 최적화 환경을 비교한다.
CartPole 및 Ball in Cup과 같은 표준 RL 환경에서 이론적 결과를 실증적으로 검증한다.
이론적으로 타당한 KL-정규화 업데이트의 안정적이고 실용적인 구현으로서의 KL-제약 업데이트에 대한 일반적인 가정을 도전한다.

제안 방법

노이즈가 있는 이점 추정이 있는 다중 손잡이 밴딧 설정에서 KL-정규화 및 KL-제약 정책 업데이트의 행동을 분석적으로 비교한다.
정책 개선 단계를 제약 최적화 문제(예: TRPO 방식)와 정규화 최적화 문제(예: 미러 강하 방식)로 공식화하고, 각각의 업데이트 규칙을 유도한다.
소프트맥스로 파arameterized된 정책을 사용하여 최적화 환경을 분석하며, 정규화가 더 매끄럽고 더 나은 행동을 보이는 목표 함수를 이끌어내는 것으로 보여준다.
일관된 신경망 아키텍처를 사용하여 CartPole 및 Ball in Cup 환경에서 TRPO, CPO, VMPO, MDPO, Surrogate 알고리즘을 구현하고 비교한다.
CPO와 MDPO에는 중요도 가중 평균 정책 기울기 추정을 적용하고, VMPO와 Surrogate에는 전체 배치 정책 평가를 사용하여 공정한 비교를 확보한다.
모든 단계에서 고정된 학습률과 가중치 초기화를 사용한 Adam 최적화기를 적용하며, 각 알고리즘 별로 {0.1, 1, 5, 10, 15, 20, 25} 범위에서 KL 하이퍼파라미터를 튜닝하여 최고 성능을 보이는 값을 선별한다.

실험 결과

연구 질문

RQ1노이즈가 있는 이점 추정이 있는 단순한 밴딧 문제에서 KL-제약 정책 업데이트는 수렴을 보장하는가?
RQ2노이즈가 있는 이점 추정이 존재할 경우, TRPO 유사 제약 알고리즘의 기대 회귀 행동은 어떠한가?
RQ3특히 소프트맥스 정책 파arameterization 하에서 KL 정규화는 제약 대비 최적화 환경에 어떤 영향을 미치는가?
RQ4제약과 정규화 알고리즘 간의 실증적 성능 차이는 최적화 안정성 또는 수렴 성질 탓인가?
RQ5Surrogate와 같은 일부 제약 알고리즘이 유사한 구성 요소를 사용함에도 불구하고 최적 정책으로 수렴하지 못하는 이유는 무엇인가?

주요 결과

모든 알고리즘이 정확하게 구현 가능한 단순한 다중 손잡이 밴딧 문제에서도 제약 정책 업데이트(예: TRPO)는 수렴이 보장되지 않는다.
TRPO는 노이즈가 있는 이점 추정이 열악한 행동을 선택할 경우 반복적으로 잘못된 방향으로 이동하므로 선형 기대 회귀를 겪는다.
반면, KL-정규화 업데이트는 반복 과정에서 노이즈를 평균화하여 동일한 밴딧 문제에서 하위선형 회귀를 초래한다.
소프트맥스로 파arameterized된 정책에서는 정규화된 목표 함수가 제약 설정보다 더 유리한 최적화 환경을 제공한다.
실증적으로 CPO는 VMPO 및 MDPO와 같은 정규화된 알고리즘보다 더 많은 진동과 느린 수렴을 보이며, 특히 최적 정책 근처에서 두드러진다.
교차 엔트로피에 제곱 오차 손실을 추가한 Surrogate 목표 함수는 정책의 탐욕성 감소로 인해 최적 정책으로의 수렴을 방해할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.