[논문 리뷰] Bayesian policy selection using active inference
이 논문은 활동적 추론를 활용한 베이지안 정책 선택 프레임워크를 제안하며, 에이전트는 변분 추론을 통해 세계 모델을 학습하고 예측 자유 에너지의 최소화를 통해 행동을 선택한다. 보상 형태 조정 없이 마운틴 카 문제를 성공적으로 해결하며, 전문가 로울아웃에서 학습하고 선호 상태 사전 확률을 활용하여 다양한 시작 위치로의 일반화를 달성한다.
Learning to take actions based on observations is a core requirement for artificial agents to be able to be successful and robust at their task. Reinforcement Learning (RL) is a well-known technique for learning such policies. However, current RL algorithms often have to deal with reward shaping, have difficulties generalizing to other environments and are most often sample inefficient. In this paper, we explore active inference and the free energy principle, a normative theory from neuroscience that explains how self-organizing biological systems operate by maintaining a model of the world and casting action selection as an inference problem. We apply this concept to a typical problem known to the RL community, the mountain car problem, and show how active inference encompasses both RL and learning from demonstrations.
연구 동기 및 목표
- 자유 에너지 원리와 활동적 추론에 기반한 강화학습 프레임워크를 개발하여 견고하고 일반화 가능한 정책 학습을 달성한다.
- 기존 강화학습의 표본 비효율성과 보상 형태 조정 문제를 해결하기 위해 행동 선택을 베이지안 추론로 재정의한다.
- 세계 모델 학습, 계획, 탐색을 뇌과학에 영감을 받은 통합(normative) 프레임워크로 통합한다.
- 마운틴 카 환경에서 제안된 방법을 시험하여 모든 시작 위치에서의 일반화 능력을 입증한다.
제안 방법
- 에이전트는 관찰에서 잠재 상태 공간을 추론하기 위해 변분 오토인코더(VAE)를 사용하여 동역학 모델을 학습한다.
- 선형 모델은 상태에 대한 사전 확률, 관측 가능성, 행동 정책으로 분해되는 생성 모델을 사용한다.
- 예측 자유 에너지 G(π)는 예측된 상태와 선호 상태 간의 KL 발산과 기대 관측 엔트로피의 조합으로 계산된다.
- 예측 자유 에너지에 대한 소프트맥스를 통해 정책을 선택함으로써 목표 지향적 행동과 내재된 지식적 탐색이 가능하다.
- 각 타임스텝에서 G(π)를 최소화함으로써 정책을 엔드 투 엔드로 훈련함으로써, 효율적 추론(amortized inference)을 가능하게 한다.
- 선호 상태 사전 확률은 전문가 로울아웃에서 추출되어 에이전트의 목표 상태 분포를 나타낸다.
실험 결과
연구 질문
- RQ1학습된 세계 모델을 갖춘 활동적 추론가 보상 형태 조정 없이 마운틴 카 문제를 해결할 수 있는가?
- RQ2선호 상태 사전 확률과 변분 추론의 통합이 다양한 초기 조건에서의 일반화를 어떻게 가능하게 하는가?
- RQ3활동적 추론이 하나의 프레임워크 안에서 목표 지향적 행동과 지식적 탐색을 얼마나 잘 지원하는가?
- RQ4예측 자유 에너지 최소화는 전통적인 강화학습 목표와 비교해 표본 효율성과 견고성 면에서 어떤가?
주요 결과
- 에이전트는 관측 환경을 정확하게 재구성하고 예측할 수 있는 동역학 모델을 성공적으로 학습하였으며, 그 결과는 그림 2에 나타나 있다.
- 학습된 모델 기반의 가상 로울아웃은 예측 자유 에너지 G(π)가 산정 정상에 도달하는 궤적을 효과적으로 식별함을 보여준다.
- G(π)를 최소화하여 훈련된 정책은 마운틴 카 환경에서 어떤 시작 위치에서든 일반화되어 목표에 일관되게 도달한다.
- 전문가 로울아웃에서 유도된 선호 상태 분포는 원하는 종료 상태를 잘 반영하며, 명시적 보상 형태 조정 없이도 희박한 보상 신호를 효과적으로 코딩한다.
- 상태 예측의 불확실성에 기반한 내재된 지식적 탐색이 자연스럽게 통합되어 외부의 호기심 신호에 대한 의존도를 감소시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.