QUICK REVIEW

[논문 리뷰] An Alternative Softmax Operator for Reinforcement Learning

Kavosh Asadi, Michael L. Littman|arXiv (Cornell University)|2016. 12. 16.

Reinforcement Learning in Robotics인용 수 26

한 줄 요약

이 논문은 강화학습에서 수렴성을 보장하는 비확장성(non-expansion)을 갖춘 새로운 미분 가능한 소프트맥스 연산자인 mellowmax를 제안한다. 표준 볼츠만 소프트맥스와 달리, 표본화된 SARSA에서의 불안정성과 수렴 불가 문제를 피하면서도, 상태에 따라 변화하는 온도 매개변수를 통해 탐색과 이용의 균형을 유지하며 안정적인 학습을 보장한다. 이는 이론적·실증적으로 모두 볼츠만 소프트맥스를 능가한다.

ABSTRACT

A softmax operator applied to a set of values acts somewhat like the maximization function and somewhat like an average. In sequential decision making, softmax is often used in settings where it is necessary to maximize utility but also to hedge against problems that arise from putting all of one's weight behind a single maximum utility decision. The Boltzmann softmax operator is the most commonly used softmax operator in this setting, but we show that this operator is prone to misbehavior. In this work, we study a differentiable softmax operator that, among other properties, is a non-expansion ensuring a convergent behavior in learning and planning. We introduce a variant of SARSA algorithm that, by utilizing the new operator, computes a Boltzmann policy with a state-dependent temperature parameter. We show that the algorithm is convergent and that it performs favorably in practice.

연구 동기 및 목표

온정책 강화학습에서 볼츠만 소프트맥스 연산자의 불안정성과 수렴 불가 문제를 해결하기 위해.
수렴 보장을 유지하면서도 탐색과 이용의 균형을 이루는 소프트맥스 연산자를 개발하기 위해.
기울기 기반 최적화에 적합한, 미분 가능하고 비확장성인 볼츠만 소프트맥스의 대안을 제공하기 위해.
표본화된 환경과 딥 강화학습 설정에서 볼츠만 소프트맥스보다 향상된 경험적 성능을 입증하기 위해.
계획 수립, 가치함수 최적화, 역강화학습 등에서 더 신뢰할 수 있는 학습을 가능하게 하기 위해.

제안 방법

최댓값과 평균의 볼록 조합 가중치의 극한으로 정의된 mellowmax를 새로운 소프트맥스 연산자로 제안하여 비확장성을 보장한다.
볼츠만 소프트맥스에서 비확장성 성질 위반 문제를 해결하기 위해 상태에 따라 변화하는 온도 매개변수를 사용하여 mellowmax를 유도한다.
정책 선택에 mellowmax를 사용하는 SARSA의 변종을 제안하여 표본화된 설정에서 수렴을 보장한다.
탐색과 이용의 균형을 동적으로 조절하기 위해 상태에 따라 변화하는 온도 매개변수를 도입한다.
Lunar Lander 환경에서 딥 신경망을 사용한 REINFORCE 알고리즘을 검증하며, Adam 최적화 및 Keras/Theano를 활용한다.
mellowmax의 볼록성과 미분 가능성을 분석하여 기울기 기반 알고리즘 및 역강화학습에의 응용 가능성을 확보한다.

실험 결과

연구 질문

RQ1수렴성을 보장하기 위해 미분 가능하고 비확장성인 소프트맥스 연산자를 설계할 수 있는가?
RQ2볼츠만 소프트맥스를 mellowmax로 대체하면 온정책 SARSA에서 안정성과 수렴성이 향상되는가?
RQ3Lunar Lander와 같은 딥 강화학습 환경에서 mellowmax는 경험적으로 볼츠만 소프트맥스보다 어떻게 성능을 냈는가?
RQ4mellowmax는 역강화학습 및 계획 알고리즘에서 볼츠만 소프트맥스의 안정적인 대체제로 기능할 수 있는가?
RQ5상태에 따라 변화하는 온도 매개변수는 학습 성능과 수렴성에 어떤 영향을 미치는가?

주요 결과

표본화된 설정에서 mellowmax 정책을 사용하는 SARSA는 수렴하는 반면, 볼츠만 정책을 사용하는 SARSA는 불안정한 가치 추정을 보이며 수렴하지 못한다.
모든 매개변수 설정에서 mellowmax 연산자는 비확장성임을 보장하여 유일한 고정점으로 수렴한다.
Lunar Lander 환경에서 mellowmax는 볼츠만 소프트맥스의 최고 성능을 능가하며, 40,000 에피소드 동안 평균 수익이 더 높게 나타났다.
온도 매개변수가 증가함에 따라 mellowmax 연산자는 이용 중심 행동을 유지하면서도 불안정성을 피한다.
mellowmax의 볼록성과 미분 가능성 덕분에 기울기 기반 강화학습 및 역강화학습에 적합하다.
경험적 결과로 mellowmax는 딥 강화학습에서 볼츠만 소프트맥스보다 더 안정적인 학습 곡선과 뛰어난 샘플 효율성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.