QUICK REVIEW

[논문 리뷰] Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning

Stefan Elfwing, Eiji Uchibe|arXiv (Cornell University)|2017. 02. 10.

Reinforcement Learning in Robotics참고 문헌 21인용 수 72

한 줄 요약

강화 학습에서 신경망 활성화 함수 SiLU 와 dSiLU 를 도입하고 이들이 on-policy TD/Sarsa 사용 시 SZ-Tetris, 10x10 Tetris, Atari 2600에서 DQN/DQN 변형보다 더 잘 수행할 수 있음을 보인다.

ABSTRACT

In recent years, neural networks have enjoyed a renaissance as function approximators in reinforcement learning. Two decades after Tesauro's TD-Gammon achieved near top-level human performance in backgammon, the deep reinforcement learning algorithm DQN achieved human-level performance in many Atari 2600 games. The purpose of this study is twofold. First, we propose two activation functions for neural network function approximation in reinforcement learning: the sigmoid-weighted linear unit (SiLU) and its derivative function (dSiLU). The activation of the SiLU is computed by the sigmoid function multiplied by its input. Second, we suggest that the more traditional approach of using on-policy learning with eligibility traces, instead of experience replay, and softmax action selection with simple annealing can be competitive with DQN, without the need for a separate target network. We validate our proposed approach by, first, achieving new state-of-the-art results in both stochastic SZ-Tetris and Tetris with a small 10$ imes$10 board, using TD($λ$) learning and shallow dSiLU network agents, and, then, by outperforming DQN in the Atari 2600 domain by using a deep Sarsa($λ$) agent with SiLU and dSiLU hidden units.

연구 동기 및 목표

SIGMOID 가중 선형 단위(SiLU) 및 그 도함수(dSiLU) 를 강화 학습의 신경망 근사기에 활성화 함수로 사용하도록 동기를 부여한다.
탐구(lambda)로의 on-policy TD(lambda) 및 Sarsa(lambda) 학습과 탐색 경과(eligibility traces) 를 Deep Q-learning 변형과 비교한다.
SiLU/dSiLU 네트워크를 사용하여 SZ-Tetris, 10x10 Tetris, Atari 2600 에서 최첨단 성능을 입증한다.
고차원 도메인에서 소프트맥스 액션 선택과의 관계를 epsilon-탐욕 탐사와 비교한다.

제안 방법

은닉 계층 k의 전 활성화 z_k 이 주어질 때 SiLU 활성화 a_k(s) = z_k * sigma(z_k) 정의.
dSiLU 활성화 a_k(s) = sigma(z_k) * (1 + z_k*(1 - sigma(z_k))) 정의.
경사하강 업데이트 theta_{t+1} = theta_t + alpha * delta_t * e_t 와 탐색 추적 e_t 를 사용하여 V^pi 에 대해 TD(lambda) 및 Q^pi 에 대해 Sarsa(lambda) 사용.
SiLU 와 dSiLU 의 기울기(gradient) 를 식 (11) 및 (12) 로 계산.
볼츠만 분포를 이용한 소프트맥스 액션 선택 적용; 에피소드에 걸쳐 온도 τ 를 어닐링.
SiLU/dSiLU 네트워크를 사용한 SZ-Tetris(얕은 네트워크 및 깊은 네트워크), 10x10 Tetris, Atari 2600 을 평가.

실험 결과

연구 질문

RQ1SiLU 와 dSiLU 활성화 함수가 전통 활성화(ReLU, 시그모이드) 대비 강화 학습의 학습 성능에 어떤 영향을 미치는가?
RQ2탐색 추적과 소프트맥스 액션 선택을 갖춘 on-policy TD(lambda)/Sarsa(lambda) 가 벤치마크 과제에서 DQN/Double DQN 과 경쟁할 수 있는가?
RQ3SiLU/dSiLU 를 사용하는 깊은 구조가 SZ-Tetris, 10x10 Tetris, Atari 2600 에서 이전의 최첨단 성능을 능가하는가?
RQ4SiLU/dSiLU 네트워크를 사용할 때 고차원 도메인에서 소프트맥스 대 epsilon-탑재 탐사의 영향은 무엇인가?

주요 결과

네트워크	최종 평균 점수	최종 최고 점수	메모
Shallow SiLU	214 ± 74	253 ± 83	SZ-Tetris, TD(lambda) with 50 hidden units
Shallow ReLU	191 ± 58	227 ± 76	SZ-Tetris, TD(lambda) with 50 hidden units
Shallow dSiLU	263 ± 80	320 ± 87	SZ-Tetris, TD(lambda) with 50 hidden units (state features)
Shallow Sigmoid	232 ± 75	293 ± 73	SZ-Tetris, TD(lambda) with 50 hidden units
Deep SiLU-SiLU	217 ± 53	219 ± 54	SZ-Tetris, two conv layers + 250 FC units
Deep ReLU-ReLU	215 ± 54	217 ± 52	SZ-Tetris, two conv layers + 250 FC units
Deep SiLU-dSiLU	229 ± 55	235 ± 54	SZ-Tetris, conv + 250 FC with SiLU in conv and dSiLU in FC
10x10 dSiLU	4,900 final mean; 5,300 best	—	10x10 Tetris, 250 hidden nodes, 400k episodes
Atari 12-games (SiLU-dSiLU)	Mean 332% (median 125%)	—	Compared to DQN, Gorila, and Double DQN

얕은 SiLU/dSiLU 네트워크가 확률적 SZ-Tetris 에서 ReLU 및 시그모이드를 능가하며, dSiLU 가 최종 평균 점수 최상(263) 및 최상의 실행(320) 을 달성한다.
깊은 SiLU-dSiLU 네트워크가 SZ-Tetris 에서 SiLU-SiLU 및 ReLU-ReLU 를 능가; 평균 최종 점수 229 를 기록하며 이전 최첨단보다 성능이 높다.
10x10 Tetris 에서 250 은닉 노드를 가진 dSiLU 네트워크가 새로운 최첨단 평균 최종 점수(4,900) 및 최고 실행(5,300) 를 달성.
Atari 2600 에서 깊은 SiLU-dSiLU 에이전트는 12 게임에서 DQN/Double DQN 보다 평균 및 중앙값 DQN-정규화 점수에서 우수하다(평균 332%, 중앙값 125%).
TD(lambda) 와 Sarsa(lambda) 는 Q-learning 기반 방법에서 보이는 최대 과대추정 편향 없이 정확한 가치 추정치를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.