QUICK REVIEW

[논문 리뷰] Tsallis Reinforcement Learning: A Unified Framework for Maximum Entropy Reinforcement Learning

Kyungjae Lee, Sungyub Kim|arXiv (Cornell University)|2019. 01. 31.

stochastic dynamics and bifurcation참고 문헌 27인용 수 18

한 줄 요약

이 논문은 조정 가능한 엔트로피 지수 q를 사용하여 타사 엔트로피를 활용하는 최대 엔트로피 강화학습을 일반화한 통합 프레임워크인 타사 강화학습(Tsallis Reinforcement Learning)을 소개한다. q를 제어함으로써 탐색과 이용의 동적 균형을 이루며, 모델-프리 액터-크리틱 알고리즘을 통해 이론적 수렴 보장을 받는다. 이로써 MuJoCo 환경에서 최고 성능을 달성한다.

ABSTRACT

In this paper, we present a new class of Markov decision processes (MDPs), called Tsallis MDPs, with Tsallis entropy maximization, which generalizes existing maximum entropy reinforcement learning (RL). A Tsallis MDP provides a unified framework for the original RL problem and RL with various types of entropy, including the well-known standard Shannon-Gibbs (SG) entropy, using an additional real-valued parameter, called an entropic index. By controlling the entropic index, we can generate various types of entropy, including the SG entropy, and a different entropy results in a different class of the optimal policy in Tsallis MDPs. We also provide a full mathematical analysis of Tsallis MDPs, including the optimality condition, performance error bounds, and convergence. Our theoretical result enables us to use any positive entropic index in RL. To handle complex and large-scale problems, we propose a model-free actor-critic RL method using Tsallis entropy maximization. We evaluate the regularization effect of the Tsallis entropy with various values of entropic indices and show that the entropic index controls the exploration tendency of the proposed method. For a different type of RL problems, we find that a different value of the entropic index is desirable. The proposed method is evaluated using the MuJoCo simulator and achieves the state-of-the-art performance.

연구 동기 및 목표

강화학습에서 다양한 형태의 엔트로피 정규화를 단일 프레임워크로 통합하기 위해.
모든 양의 엔트로피 지수에 대해 최적성 조건, 오차 한계, 수렴성을 포함한 타사 MDP의 이론적 성질 분석하기 위해.
대규모 연속 제어 문제를 위한 타사 엔트로피 기반 모델-프리 액터-크리틱 알고리즘 개발하기 위해.
엔트로피 지수 q가 탐색 행동을 제어하고 샘플 효율성을 향상시킨다는 것을 경험적으로 검증하기 위해.
다양한 RL 과제에 따라 최적의 q 값이 다를 수 있으며, 이는 과제에 맞는 하이퍼파라미터 튜닝 가능성을 보여주기 위해.

제안 방법

엔트로피 지수 q를 조정할 수 있는 타사 엔트로피 최대화를 포함하는 새로운 마르코프 결정 과정(MDP) 클래스인 타사 MDP를 제안한다.
타사 벨먼 최적성 방정식을 유도하고, 모든 양의 q 값에 대해 타사 정책 및 가치 반복의 최적성과 수렴성을 확립한다.
연속 행동 공간을 위한 재프로그래밍 기반 그래디언트를 사용하는 타사 액터-크리틱(TAC) 알고리즘을 개발하며, q-로그 함수 기반의 정책 그래디언트 업데이트를 적용한다.
특히 q ≥ 2일 때 발생할 수 있는 그래디언트 폭주를 방지하기 위해 정책 밀도를 제한하는 수치적 안정화 기법을 구현한다.
안정적인 학습을 위해 경험 재생 버퍼와 소프트 업데이트 비율 τ를 사용한 타겟 네트워크 업데이트를 구현한다.
유한한 연속 행동을 위해 tanh 스quashing 함수를 적용하고, 정책 그래디언트를 위한 q-로그리스틱 가능도를 계산한다.

실험 결과

연구 질문

RQ1조정 가능한 엔트로피 지수 q를 가진 타사 엔트로피는 샤논-지블 및 희박한 타사 엔트로피를 포함한 강화학습의 다양한 엔트로피 정규화 형태를 통합할 수 있는가?
RQ2엔트로피 지수 q의 값이 정책 최적화에서 탐색-이용 균형에 어떤 영향을 미치는가?
RQ3제안된 타사 MDP 프레임워크는 모든 양의 q 값에 대해 이론적 수렴성과 최적성 보장을 유지하는가?
RQ4타사 액터-크리틱 방법은 MuJoCo와 같은 연속 제어 벤치마크에서 최고 성능을 달성할 수 있는가?
RQ5과제에 따라 최적의 q 값이 존재하여 샘플 효율성과 최종 성능을 향상시킬 수 있는가?

주요 결과

엔트로피 지수 q는 탐색 행동을 제어한다: 낮은 q 값(예: 1.2)은 희박성과 이성적인 행동을 선호하고, 높은 q 값(예: 2.0)은 더 넓은 탐색을 장려한다.
Hopper-v2와 Swimmer-v2에서 q = 2.0이 다른 값보다 略적으로 더 좋은 성능을 보였으며, 이는 이러한 과제에서 더 높은 탐색 이점이 있음을 시사한다.
HalfCheetah-v2와 Ant-v2에서는 q = 1.5가 최적의 성능을 보였으며, 이는 이동 과제에서 균형 잡힌 탐색-이용 균형이 가장 효과적임을 나타낸다.
Pusher-v2와 Humanoid-v2에서는 q = 1.2가 가장 좋은 결과를 얻었으며, 이는 복잡한 조작 및 고차원 제어 과제에서 더 희박한 정책이 더 효과적임을 시사한다.
모든 테스트된 MuJoCo 환경에서 타사 액터-크리틱 방법이 최고 성능을 달성했으며, 표준 SAC 및 기타 엔트로피 정규화 기반 베이스라인을 모두 능가했다.
밀도를 10^(8/(q-1))로 제한하는 수치적 안정화 기법이 특히 q ≥ 2일 때 그래디언트 폭주를 효과적으로 방지하여 안정적인 학습을 보장했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.