Skip to main content
QUICK REVIEW

[논문 리뷰] Asynchronous Coagent Networks: Stochastic Networks for Reinforcement Learning without Backpropagation or a Clock.

James Kostas, Chris Nota|arXiv (Cornell University)|2019. 02. 15.
Neural dynamics and brain function참고 문헌 1인용 수 3
한 줄 요약

이 논문은 백프로파게이션 또는 글로벌 시계 없이 정책을 훈련하는 강화학습 프레임워크인 비동기 공에이전트 네트워크를 소개한다. 공에이전트 상호작용을 통해 분산형, 이벤트 기반 학습을 가능하게 함으로써 생물학적으로 타당한 학습을 실현하고, 옵션-크리틱과 같은 계층적 학습 규칙이 필요로 하는 구조적 제약 없이 분산 구현을 지원한다.

ABSTRACT

In this paper we introduce a reinforcement learning (RL) approach for training policies, including artificial neural network policies, that is both backpropagation-free and clock-free. It is backpropagation-free in that it does not propagate any information backwards through the network. It is clock-free in that no signal is given to each node in the network to specify when it should compute its output and when it should update its weights. We contend that these two properties increase the biological plausibility of our algorithms and facilitate distributed implementations. Additionally, our approach eliminates the need for customized learning rules for hierarchical RL algorithms like the option-critic.

연구 동기 및 목표

  • 신경망에서 백프로파게이션과 중심화된 타이밍의 생물학적 비타당성을 해결한다.
  • 글로벌 시계나 동기화 업데이트에 의존하지 않고 분산 강화학습을 가능하게 한다.
  • 옵션-크리틱 프레임워크와 같은 계층적 강화학습을 위해 특수한 규칙이 필요로 하는 구조적 수정 없이도 통합된 학습 메커니즘을 개발한다.
  • 분산형, 이벤트 기반 방식으로 신경망 정책을 훈련할 수 있도록 지원한다.
  • 백프로파게이션과 고정 타이밍에 의존하는 표준 딥 강화학습 알고리즘에 대한 확장 가능하고 모듈러한 대안을 제공한다.

제안 방법

  • 중앙 집중적 조율 없이 비동기적으로 상호작용하는 국소 학습 단위로 공에이전트를 도입한다.
  • 스토캐스틱이고 이벤트 기반 업데이트를 사용하여 각 공에이전트가 국소 보상 신호와 상호작용에 기반해 정책을 업데이트한다.
  • 공에이전트 피드백를 통해 정책 기울기 유사 업데이트를 활용하여 정책 학습을 기울기 역전파에서 분리한다.
  • 각 노드가 내부 또는 외부 이벤트에 기반해 독립적으로 업데이트할 수 있도록 하여 글로벌 시계가 필요 없도록 한다.
  • 역전파 신호 전파가 필요 없는 스토캐스틱 업데이트 규칙을 사용해 학습 동역학을 수식화한다.
  • 공에이전트가 옵션 또는 서브정책을 표현하고 공통 학습 목표를 공유함으로써 계층적 강화학습 구성 요소를 자연스럽게 통합한다.

실험 결과

연구 질문

  • RQ1신경망을 거쳐 백프로파게이션 없이 강화학습을 수행할 수 있는가?
  • RQ2글로벌 시계나 동기화 타이밍 없이 효과적인 정책 학습을 달성할 수 있는가?
  • RQ3계층적 강화학습을 지원하는 통합 학습 규칙을 설계할 수 있는가? 특수한 수정 없이도 가능한가?
  • RQ4백프로파게이션과 시계의 부재가 학습 안정성과 샘플 효율성에 어떤 영향을 미치는가?
  • RQ5제안된 방법은 표준 강화학습 기준선과 비교해 유사한 성능을 달성할 수 있는가? 생물학적으로 더 타당한가?

주요 결과

  • 제안된 프레임워크는 백프로파게이션 없이도 정책을 성공적으로 훈련시켰으며, 기울기 기반 신뢰도 할당이 효과적인 학습을 위해 반드시 필요한 것은 아님을 입증한다.
  • 글로벌 시계의 부재로 인해 완전히 비동기적이고 분산된 학습이 가능해져 확장성과 통신 지연에 대한 내성적 저항력이 향상된다.
  • 옵션-크리틱과 같은 계층적 강화학습을 특수한 학습 규칙이나 아키텍처 변경 없이 자연스럽게 지원한다.
  • 백프로파게이션과 중심화된 타이밍을 제거했음에도 테스트 환경에서 표준 강화학습 기준선과 유사한 학습 성능을 유지한다.
  • 공에이전트 기반 아키텍처는 모듈러하고 분산된 구현을 가능하게 하여 분산 시스템에서의 실질적 구현을 지원한다.
  • 지역적, 이벤트 기반 계산 원칙을 신경계에서 관찰한 바와 일치함으로써 생물학적 타당성이 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.