QUICK REVIEW

[논문 리뷰] Reinforcement Learning through Active Inference

Alexander Tschantz, Beren Millidge|arXiv (Cornell University)|2020. 02. 28.

Reinforcement Learning in Robotics참고 문헌 69인용 수 57

한 줄 요약

논문은 기대 미래의 자유에너지(FEEF)를 도입한다. 이는 강화학습에서 의사결정을 위한 활성 추론 기반 목표로, 탐험과 활용 사이의 자연스러운 균형을 제공하고 희소하고 잘 형성된, 보상이 없는 연속 제어 작업에서도 강한 성능을 보인다.

ABSTRACT

The central tenet of reinforcement learning (RL) is that agents seek to maximize the sum of cumulative rewards. In contrast, active inference, an emerging framework within cognitive and computational neuroscience, proposes that agents act to maximize the evidence for a biased generative model. Here, we illustrate how ideas from active inference can augment traditional RL approaches by (i) furnishing an inherent balance of exploration and exploitation, and (ii) providing a more flexible conceptualization of reward. Inspired by active inference, we develop and implement a novel objective for decision making, which we term the free energy of the expected future. We demonstrate that the resulting algorithm successfully balances exploration and exploitation, simultaneously achieving robust performance on several challenging RL benchmarks with sparse, well-shaped, and no rewards.

연구 동기 및 목표

활성 추론과 RL의 결합을 촉진하여 베이지안 추론을 활용하고 선호하는 결과에 대한 모델 편향을 활용하도록 한다.
기대 미래의 자유에너지를 의사결정 목표로 형식화하고 구현한다.
제안된 목표가 기존 RL 목표에 대한 계산 가능하고 타당한 경계를 제공함을 보여준다.
다양한 보상 구조를 가진 연속 제어 벤치마크에서 강건한 성능을 보임을 보여준다.

제안 방법

선호를 인코딩하는 바이어스된 생성 모델을 갖춘 POMDP에서 의사결정을 형식화한다.
기대 미래의 자유에너지를 정의하고 정책 q(pi)가 이 양을 최소화함을 도출한다.
음의 자유에너지를 기대 정보 이득 항과 외재 항으로 분해하여 탐험과 활용을 연결한다.
계획 horizon H를 갖는 모델 기반 RL을 구현하고 교차 엔트로피 방법(CEM)을 통해 q(pi)를 최적화한다.
곱으로 분해된 변분 분포와 계산 가능한 KL 항을 사용하여 미래 상태, 관측 및 매개변수에 대한 신념을 근사한다.
희소 보상(Mountain Car, Cup Catch), 잘 형성된 보상(Half Cheetah), 그리고 보상 없음(Ant Maze)인 연속 제어 과제에서 평가한다.

실험 결과

연구 질문

RQ1기대 미래의 자유에너지를 최소화하는 것이 RL에서 자연스러운 탐험-활용 밸런스를 만들어내는가?
RQ2활성 추론 기반 목표가 희소하거나 보상 신호가 없는 연속 제어에서 강건한 성능을 달성하는가?
RQ3FEEF가 전통적 확률적 RL 목표와 어떻게 관계하고 어떤 경계를 제공하는가?
RQ4고차원 연속 상태-행동 공간 및 모델 기반 계획으로 이 접근법이 확장 가능한가?
RQ5관측치에 대한 분포로 표현된 선호가 보상 모델링의 유연성에 이점을 주는가?

주요 결과

FEEF 목표는 정보 이득 항과 외재 항을 통해 자연스러운 탐험-활용 트레이드오프를 유도한다.
Mountain Car(희소 보상)에서 한 번의 실행으로 최적의 성능을 달성하며 강한 방향성 탐험을 시사한다.
Cup Catch(희소 보상)에서 방법이 방법들 간 벤치마크에 비해 비슷한 성능을 보이며 탐험이 충분할 때 강건함을 보여준다.
Half Cheetah(잘 형성된 보상)에서 100 에피소드 이후 SAC를 대폭 능가하며 샘플 효율이 향상되었음을 보여준다.
Ant Maze(보상 없음)에서 더 높은 탐험을 달성하여 무작위 정책 벤치마크보다 미로의 더 큰 부분을 커버한다.
전반적으로 다양한 보상 구조에서 강건한 성능을 보이고 고차원 연속 작업으로 확장 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.