QUICK REVIEW

[논문 리뷰] Learning to Repeat: Fine Grained Action Repetition for Deep Reinforcement Learning

Sahil Sharma, Aravind S. Lakshminarayanan|arXiv (Cornell University)|2017. 02. 20.

Reinforcement Learning in Robotics인용 수 30

한 줄 요약

이 논문은 딥 강화학습 에이전트가 액션과 그 최적의 반복 지속 시간을 동적으로 학습할 수 있도록 해주는 일반적인 프레임워크인 FiGAR을 제안한다. 다양한 환경에서 정책 성능을 향상시킨다. 액션 선택과 반복 시간을 인자 정책를 통해 분리함으로써, FiGAR는 Atari, MuJoCo, TORCS 도메인에서 기존 알고리즘을 수정하지 않고도 샘플 효율성과 정책 품질을 향상시킨다.

ABSTRACT

Reinforcement Learning algorithms can learn complex behavioral patterns for sequential decision making tasks wherein an agent interacts with an environment and acquires feedback in the form of rewards sampled from it. Traditionally, such algorithms make decisions, i.e., select actions to execute, at every single time step of the agent-environment interactions. In this paper, we propose a novel framework, Fine Grained Action Repetition (FiGAR), which enables the agent to decide the action as well as the time scale of repeating it. FiGAR can be used for improving any Deep Reinforcement Learning algorithm which maintains an explicit policy estimate by enabling temporal abstractions in the action space. We empirically demonstrate the efficacy of our framework by showing performance improvements on top of three policy search algorithms in different domains: Asynchronous Advantage Actor Critic in the Atari 2600 domain, Trust Region Policy Optimization in Mujoco domain and Deep Deterministic Policy Gradients in the TORCS car racing domain.

연구 동기 및 목표

딥 강화학습에서 고정되거나 정적인 액션 반복 방식의 한계를 해결함으로써, 시간적 추상화와 정책의 유연성을 향상시키기 위해.
에이전트가 어떤 액션을 취할 것인지뿐 아니라, 그 액션을 얼마나 오래 반복할 것인지도 학습할 수 있도록 하여, 더 효율적이고 적응적인 의사결정을 가능하게 하기 위해.
A3C, TRPO, DDPG와 같은 기존의 정책 기반 알고리즘에 대한 일반적이고 즉시 사용 가능한 확장 기능을 제공함으로써, 연속적 및 이산적 액션 공간에서의 성능 향상을 위해.
복잡한 제어 과제에서 동적 액션 반복이 더 높은 샘플 효율성과 더 높은 최종 성능을 이끌어내는지 경험적으로 검증하기 위해.

제안 방법

FiGAR는 액션 선택과 반복 지속 시간을 별도의 확률 분포로 모델링함으로써, 액션 선택과 반복 시간을 분리한 인자 정책 표현을 도입한다.
프레임워크는 정책 네트워크를 수정하여 선택된 액션에 대한 확률과 액션 반복 시간의 분포를 동시에 출력하도록 한다.
액션 반복은 매크로 액션으로 구현된다: 에이전트는 액션과 지속 시간을 선택한 후, 해당 시간 동안 그 액션을 반복 실행한다.
이 방법은 어떤 정책 기반 알고리즘과도 호환되며, 표준 액션 샘플링 단계를 공동 액션-지속 시간 샘플링으로 대체함으로써 원활하게 통합된다.
액션 반복 집합 W는 구성 가능하다—예를 들어 1에서 50까지의 모든 정수 또는 소수의 부분집합—시간적 추상화 탐색의 유연성을 제공한다.
초기화 조정은 변형 간에 공유되며(예: FiGAR-30에서 튜닝), 다른 반복 집합에 대해 재튜닝 없이도 일반화 성능을 입증한다.

실험 결과

연구 질문

RQ1동적 액션 반복은 딥 강화학습에서 학습 효율성과 최종 성능을 향상시킬 수 있는가?
RQ2액션 선택과 반복 지속 시간을 분리함으로써 고정 반복보다 더 나은 시간적 추상화를 달성할 수 있는가?
RQ3FiGAR는 기존의 강화학습 알고리즘을 수정하지 않고도 이산적 및 연속적 제어 과제에 효과적으로 적용될 수 있는가?
RQ4액션 반복 집합 W의 선택이 학습 성능 및 환경 간 일반화에 어떤 영향을 미치는가?
RQ5FiGAR는 Atari 게임과 같은 매우 결정론적인 환경에서 장기간 지속되는 조작이나 정밀한 타이밍을 포함한 최적의 매크로 액션을 학습할 수 있는가?

주요 결과

FiGAR는 A3C 기준선 대비 31개의 Atari 2600 게임에서 뚜렷한 성능 향상을 보였다. FiGAR-P의 평균 점수는 20,005.40, FiGAR-50는 22,904.50이었고, 기준선은 2,769.40이었다.
MuJoCo 도메인에서 FiGAR-30-50는 Seaquest에서 평균 점수 1,828.90을 기록하여 기준선의 1,268.75를 초월했다.
TORCS 레이싱 도메인에서 FiGAR-30-50는 점수 11,090.00을 기록하여 기준선의 2,364.00보다 뚜렷이 높았다.
프레임워크는 다양한 반복 집합에 대해 잘 일반화된다: FiGAR-30에서 튜닝된 고정 초기화 조정을 사용하여, FiGAR-20-30 및 FiGAR-P와 같은 다른 변형도 강력한 성능을 보였다.
시각화 결과 FiGAR는 시간적으로 연장된 매크로 액션을 학습하는 것으로 나타났다. 예를 들어 Freeway에서는 차량 통과를 기다리는 행동, Seaquest에서는 적을 추적하는 행동을 학습하였다. 이는 효과적인 시간적 추상화를 보여준다.
결과는 최적의 반복 지속 시간을 학습함으로써 더 부드럽고 효율적인 정책과 결정론적 환경에서 더 높은 샘플 효율성을 달성할 수 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.