QUICK REVIEW

[논문 리뷰] Provably Convergent Two-Timescale Off-Policy Actor-Critic with Function Approximation

Shangtong Zhang, Bo Liu|arXiv (Cornell University)|2019. 11. 11.

Adaptive Dynamic Programming Control인용 수 23

한 줄 요약

이 논문은 기능 근사와 함께 두 시간스케일 이른바 오프-폴리시 액터-크리틱 알고리즘인 COF-PAC을 제안한다. 이는 중요도를 보다 안정적으로 근사함으로써 오프-폴리시 학습을 안정화시키는 기반으로서 Gradient Emphasis Learning(GEM)을 사용하는 강화 학습 기반의 강력한 비용 함수를 도입한다. 이는 선형 기능 근사와 비선형 정책 파rameterization 하에서 거의 확실한 수렴 보장이 가능하다.

ABSTRACT

We present the first provably convergent two-timescale off-policy actor-critic algorithm (COF-PAC) with function approximation. Key to COF-PAC is the introduction of a new critic, the emphasis critic, which is trained via Gradient Emphasis Learning (GEM), a novel combination of the key ideas of Gradient Temporal Difference Learning and Emphatic Temporal Difference Learning. With the help of the emphasis critic and the canonical value function critic, we show convergence for COF-PAC, where the critics are linear and the actor can be nonlinear.

연구 동기 및 목표

기능 근사 하에서 오프-폴리시 액터-크리틱 알고리즘의 이론적 격차를 메우기 위해, 일반적인 비선형 정책 파arameterization 하에서 수렴 보장을 달성하고자 한다.
기능 근사가 적용될 경우 기존의 오프-폴리시 액터-크리틱 방법들인 Off-PAC와 같이 안정성 부족과 수렴 보장의 결여 문제를 해결하고자 한다.
오프-폴리시 환경에서 상태의 중요도(강조)를 정확히 추적할 수 있는 크리틱 구성요소를 개발하고자 한다. 이는 학습 안정성을 향상시키기 위함이다.
두 시간스케일 학습과 기능 근사 하에서 비선형 정책 파arameterization에 대한 수렴 분석을 가능하게 하고자 한다.
기존의 시간차분 원리에 기반한 새로운 크리틱 학습 방법을 사용하여 두 시간스케일 액터-크리틱 프레임워크의 이론적 수렴성을 확립하고자 한다.

제안 방법

오프-폴리시 학습에서 상태의 중요도를 추정하는 새로운 크리틱 구성요소인 강조 크리틱을 도입한다. 이는 후속 추적의 극한으로서의 강조를 기반으로 한다.
GTD와 Emphatic TD의 아이디어를 융합한 확률적 근사 알고리즘인 Gradient Emphasis Learning(GEM)을 제안한다. 이는 분산을 줄이고 수렴 성능을 향상시킨다.
두 시간스케일 업데이트 규칙을 사용한다: 크리틱(강조 기반 및 가치 기반)은 빠른 시간스케일로 업데이트되고, 액터는 느린 시간스케일로 업데이트된다.
모든 크리틱과 액터에 선형 기능 근사를 적용하며, 액터의 정책 파arameterization은 비선형으로 허용함으로써 실용적인 딥 강화 학습 응용을 가능하게 한다.
GTD 스타일의 수렴 이론을 기반으로, 변화하는 목표 정책 하에서 GEM의 거의 확실한 수렴을 증명함으로써 수렴성을 확립한다.
GTD 스타일 알고리즘이 변화하는 정책 하에서도 정확한 고정점을 추적할 수 있는 능력을 활용하여, 크리틱이 올바른 고정점으로 수렴하도록 보장함으로써 액터의 수렴을 가능하게 한다.

실험 결과

연구 질문

RQ1일반적인 비선형 정책 파arameterization 하에서 기능 근사와 함께 두 시간스케일 오프-폴리시 액터-크리틱 알고리즘이 이론적으로 수렴할 수 있는가?
RQ2후속 추적을 통한 중요도 추정보다 더 안정적으로 강조를 추정할 수 있는가? 이는 수렴 가능성을 보장할 수 있는가?
RQ3Gradient Emphasis Learning(GEM)이 오프-폴리시 강화 학습에서 강조를 안정적이고 수렴 가능한 방식으로 추정할 수 있는가?
RQ4기능 근사 하에서 변화하는 정책 하에서 크리틱의 수렴을 보장할 수 있는가?
RQ5크리틱이 각 단계에서 정확히 수렴한다고 가정하지 않고도 오프-폴리시 액터-크리틱의 수렴을 달성할 수 있는가?

주요 결과

COF-PAC는 선형 크리틱과 비선형 액터를 가진 두 시간스케일 오프-폴리시 액터-크리틱 알고리즘 중에서 기능 근사 하에서 이론적으로 수렴을 보장하는 최초의 알고리즘이다.
Gradient Emphasis Learning(GEM)은 선형 기능 근사와 변화하는 목표 정책 하에서 강조 크리틱의 거의 확실한 수렴을 보장한다.
GEM로 학습된 강조 크리틱은 후속 추적보다 더 안정적이고 분산이 낮은 중요도 가중치 추정을 제공하여 이전 방법의 핵심적인 불안정성을 해결한다.
COF-PAC의 수렴 수준은 온-폴리시 액터-크리틱(Konda, 2002)과 동일하며, 오프-폴리시 학습임에도 불구하고 동일한 이론적 보장을 달성한다.
이론적 프레임워크는 GTD 스타일 알고리즘(예: GEM)이 변화하는 정책 하에서도 정확한 고정점을 추적할 수 있음을 보여주며, 이는 두 시간스케일 수렴을 가능하게 한다.
분석 결과, 강조 크리틱과 GEM를 사용할 경우 기능 근사가 수렴을 깨뜨리지 않음을 확인하였으며, 이는 오랫동안 오프-폴리시 강화 학습에서 이론적 장벽으로 여겨졌던 문제를 해결하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.