[논문 리뷰] Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review
요약: 본 논문은 최대 엔트로피 강화학습과 제어 문제를 그래픽 모델에서의 확률적 추론으로 형성하는 방법을 보여주며, 결정적 역학에 대해서는 정확한 추론을 도출하고 확률적 역학에 대해서는 변분 방법을 통해 추론을 제시하고, 깊은 RL 및 계획과의 연결성을 제시한다.
The framework of reinforcement learning or optimal control provides a mathematical formalization of intelligent decision making that is powerful and broadly applicable. While the general form of the reinforcement learning problem enables effective reasoning about uncertainty, the connection between reinforcement learning and inference in probabilistic models is not immediately obvious. However, such a connection has considerable value when it comes to algorithm design: formalizing a problem as probabilistic inference in principle allows us to bring to bear a wide array of approximate inference tools, extend the model in flexible and powerful ways, and reason about compositionality and partial observability. In this article, we will discuss how a generalization of the reinforcement learning or optimal control problem, which is sometimes termed maximum entropy reinforcement learning, is equivalent to exact probabilistic inference in the case of deterministic dynamics, and variational inference in the case of stochastic dynamics. We will present a detailed derivation of this framework, overview prior work that has drawn on this and related ideas to propose new reinforcement learning and control algorithms, and describe perspectives on future research.
연구 동기 및 목표
- 엔트로피 항이 있는 강 reinforced 학습 및 제어를 위한 통합된 확률적 그래픽 모델(PGM) 형식을 제시한다.
- 최적 경로가 이 PGM의 추론으로 어떻게 도출되는지 보이고, 대응하는 역방향 메시지와 소프트 가치 함수의 도출을 제시한다.
- 결정적·확률적 역학을 대조하고, 비현실적으로 위험추구하는 역학을 피하기 위해 변분 추론의 필요성을 강조한다.
- 의미: 엔트리가 포함될 때 최대 엔트로피 RL을 복구하고 보상 설계 및 정책 학습에 대한 함의를 설명한다.
제안 방법
- auxiliary 최적성 변수 O_t를 사용하여 p(O_t=1|s_t,a_t)=exp(r(s_t,a_t))로 RL/제어 목적의 최대 엔트로피 확장을 도입한다.
- trajetories가 exp(sum_t r(s_t,a_t))로 가중된 PGM을 형성하고 결정적 역학에 대해서는 (정확한) 추론을 수행하거나 확률적 역학에 대해서는 변분/추론 기반 방법을 수행한다.
- β_t(s_t,a_t) 및 β_t(s_t)를 도출하여 p(a_t|s_t,O_1:T)을 복구하고 soft Q/V 함수(Q(s,a)=r(s,a)+V(s'))와의 관계를 보인다.
- 로그 공간 백업 Q 및 V를 제시하여 결정적 경우의 soft 벨만 백업과의 연계를 보이고, 확률적 역학에서의 위험추구 행동을 변분 보정을 통해 다룬다.
- 대체 모델 형태(무향 CRF, 온도 매개변수 α)와 할인에 대해 논의하고, 표준 RL 및 엔트로피 규제 RL 프레임워크와의 연결을 보인다.
실험 결과
연구 질문
- RQ1강화학습과 최적 제어를 확률적 추론의 그래프 모델로 어떻게 재구성할 수 있는가?
- RQ2결정적 역학과 확률적 역학에서 엔트로피 규제된 목적의 동작 방식과 해석은 무엇인가?
- RQ3제어-추론 프레임워크에서 역방향 메시지를 통해 최적 정책을 어떻게 계산하는가?
- RQ4변분 추론은 최대 엔트로피 공식에서 제기되는 확률적 역학의 위험추구 문제를 어떻게 해결하는가?
- RQ5대체 형태(CRF, 온도, 할인)가 표준 RL 및 최대 엔트로피 RL과 어떤 관계를 가지는가?
주요 결과
- 최대 엔트로피 형태의 RL/제어는 결정적 역학에서는 정확한 추론과, 확률적 역학에서는 변분 추론에 대응한다.
- 최적 정책은 역방향 메시지 β_t(s_t,a_t) 및 β_t(s_t)을 통해 복구될 수 있으며, 이는 소프트 Q/V 함수로 이어진다.
- 로그 공간에서의 소프트 벨만 백업은 엔트로피를 통한 탐색의 흐름과 확률적 역학에서의 위험추구 효과를 나타낸다.
- 변분 추론 접근은 역학을 고정시키고(p(s_{t+1}|s_t,a_t)를 해제) 기대 다음 상태 값을 사용한 견고한 백업을 제공하여 위험추구 행동을 완화한다.
- 대체 형태(무향 CRF, 온도 매개변수)는 엔트리 최대화와 표준 RL 목표 간의 보간을 가능하게 하며, 할인은 간단히 도입될 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.