Skip to main content
QUICK REVIEW

[논문 리뷰] Reinforcement Learning with Competitive Ensembles of Information-Constrained Primitives

Anirudh Goyal, Shagun Sodhani|arXiv (Cornell University)|2019. 06. 25.
Reinforcement Learning in Robotics참고 문헌 37인용 수 23
한 줄 요약

이 논문은 정보 접근 제약을 받는 저수준 행동 원칙들이 자신의 정보 필요에 따라 자율적으로 경쟁하여 각 상태에 가장 관련성이 높은 원칙을 선택하는 정보이론적 메커니즘을 사용하여 행동하는 분산형 강화학습 프레임워크를 제안한다. 각 원칙의 정보 접근를 제한하고 경쟁을 통해 전문화를 촉진함으로써, 중앙집중식 메타컨트롤러가 필요 없는 상태에서 계층적 및 평탄한 정책보다 뛰어난 일반화 및 전이 성능을 달성한다.

ABSTRACT

Reinforcement learning agents that operate in diverse and complex environments can benefit from the structured decomposition of their behavior. Often, this is addressed in the context of hierarchical reinforcement learning, where the aim is to decompose a policy into lower-level primitives or options, and a higher-level meta-policy that triggers the appropriate behaviors for a given situation. However, the meta-policy must still produce appropriate decisions in all states. In this work, we propose a policy design that decomposes into primitives, similarly to hierarchical reinforcement learning, but without a high-level meta-policy. Instead, each primitive can decide for themselves whether they wish to act in the current state. We use an information-theoretic mechanism for enabling this decentralized decision: each primitive chooses how much information it needs about the current state to make a decision and the primitive that requests the most information about the current state acts in the world. The primitives are regularized to use as little information as possible, which leads to natural competition and specialization. We experimentally demonstrate that this policy architecture improves over both flat and hierarchical policies in terms of generalization.

연구 동기 및 목표

  • 중앙집중식 메타정책이 전체 상태 공간을 이해해야 하는 이유로 인해 발생하는 계층적 강화학습의 일반화 한계를 해결하기 위해.
  • 단일 고수준 제어기 의존도를 제거하여 영속적이고 즉시 사용 가능한 기술 전이를 가능하게 하기 위해.
  • 정보이론적 정규화를 통해 저수준 원칙 간 자연스러운 전문화와 경쟁을 촉진하기 위해.
  • 원칙 선택을 분산화하여 새로운 환경이나 복잡한 환경에서의 전이 학습 성능을 향상시키기 위해.

제안 방법

  • 각 원칙 정책은 현재 상태에 대한 정보 접근를 제한하기 위해 변동 정보 블로킹 목적으로 훈련된다.
  • 원칙들은 요청하는 상태 정보의 양에 따라 경쟁하며, 더 많은 정보를 요청할수록 선택될 가능성이 높아진다.
  • 원칙들이 관련 있는 상태 특징을 효율적으로 인코딩하도록 학습할 수 있도록, 미분 가능하고 종단 간(end-to-end) 훈련 체계를 사용한다.
  • 아키텍처는 인수 분해되어 있으며, 원칙들은 독립적으로 훈련되고 추론 시 정보 기반 경쟁을 통해 동적으로 선택된다.
  • 이 방법은 순차적 관측을 처리하고 의사결정을 위한 상태 표현을 생성하기 위해 GRU 기반 인코더에 의존한다.
  • 최종 정책는 유일한 정보를 갖는 원칙만 작동하는 경쟁적 앙상블이며, 명시적 메타정책이 존재하지 않는다.

실험 결과

연구 질문

  • RQ1정보 제약이 있는 원칙을 갖는 분산 정책 앙상블이 중앙집중식 메타정책을 가진 계층적 정책보다 일반화 성능에서 뛰어나게 되는가?
  • RQ2원칙 간 정보이론적 경쟁이 자연스러운 전문화와 향상된 전이 학습으로 이어지는가?
  • RQ3원칙들을 재조합하거나 재훈련 없이 새로운 환경에 적용할 수 있는 정도는 어느 정도인가?
  • RQ4고수준 제어기를 제거함으로써 새로운 환경에서의 내성성과 적응성 향상이 이루어지는가?

주요 결과

  • 제안된 방법은 네 방향 그리드 월드 및 개미 미로 작업을 포함한 다양한 환경에서 일반화 성능에서 평탄한 정책과 계층적 정책을 모두 능가한다.
  • 모델은 원칙들을 즉시 사용 가능한 방식으로 재조합함으로써, 더 크거나 이전에 본 적 없는 환경으로도 성공적으로 일반화하여 뛰어난 전이 성능를 달성한다.
  • 원칙들이 특정 환경적 특징(예: 상자, 문, 구형 물체)에 대해 선택적으로 활성화됨으로써 상태 공간의 서로 다른 영역으로 자연스럽게 전문화됨을 입증한다.
  • 중앙집중식 메타컨트롤러의 부재로 인해 원칙들의 원활한 전이 및 재조합이 가능해져 모듈성과 적응성 향상이 이루어진다.
  • 정보 기반 경쟁 메커니즘이 명시적 지도 없이도 효과적이고 동적으로 활성 원칙을 선택하는 데 기여한다.
  • 개미 미로 환경에서, 이 방법은 3개에서 10개의 목표 위치로의 일반화를 성공적으로 수행하여 내성성과 확장성의 우수함을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.