QUICK REVIEW

[논문 리뷰] FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

Lei Lv, Yunfei Li|arXiv (Cornell University)|2026. 02. 13.

Model Reduction and Neural Networks인용 수 0

한 줄 요약

FLAC는 Generalized Schrödinger Bridge 프레임워크 내에서 경로 공간의 운동 에너지를 정규화하여 반복적 생성 정책에 대한 최대 엔트로피 강화 학습을 재구성하고, 명시적 행동 밀도 없이 가능성 없는 탐색을 가능하게 한다.

ABSTRACT

Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.

연구 동기 및 목표

터미널 로그 밀도가 접근 불가능한 반복적 생성 정책에 대한 엔트로피 정규화 RL을 동기부여한다.
정책의 확률적 성질을 속도场의 운동 에너지로 조절하는 가능성 없는 프레임워크를 제안한다.
높은 엔트로피 기준 참조를 최대화하는 것이 Generalized Schrödinger Bridge 문제로 불릴 수 있음을 보여준다.
자동 에너지 조정 기능을 갖춘 에너지 규칙 기반의 Actor-Critic 알고리즘을 개발한다.
고차원 연속 제어 벤치마크에서 경쟁력 있는 성능을 입증한다.

제안 방법

정책 최적화를 높은 엔트로피 참조 프로세스에 상대하는 Generalized Schrödinger Bridge 문제로 환산한다.
속도场의 운동 에너지 페널티를 참조 경로 측도와의 발산의 대리 변수로 사용한다.
운동 에너지 항을 포함하는 소프트 벨만 백업을 가진 에너지 규칙화 정책 반복을 도출한다.
differentiable trajectory generator와 크리틱을 갖춘 실용적인 off-policy FLAC 알고리즘을 구현한다.
훈련 중 에너지 페널티를 자동으로 조정하는 라그랑지안 이중 메커니즘을 도입한다.
에너지 최소화 방향으로 행동자가 작동 가치를 최대화하면서 운동 에너지를 최소화하는 off-policy actor-critic 구현을 제공한다.

실험 결과

연구 질문

RQ1FLAC가 강력한 베이스라인과 비교하여 샘플 효율성과 고차원 연속 제어 벤치마크에서 성능을 개선하는가?
RQ2운동 에너지 정규화가 명시적 밀도 추정 없이도 정책의 확률적 성질을 효과적으로 조절하는가?
RQ3자동 에너지 조정이 탐색 유지와 성능에서 고정 정규화 방식보다 우수한가?
RQ4Generalized Schrödinger Bridge 형식이 RL에서 엔트로피 정규화를 경로 공간 제약과 어떻게 연결하는가?

주요 결과

FLAC는 강력한 베이스라인에 비해 DMControl 및 HumanoidBench의 도전적인 과제에서 경쟁적이거나 우수한 성능을 달성한다.
운동 에너지 정규화자는 모드 붕괴를 방지하고 고차원 과제에서 다중 모드 탐색을 보존한다.
자동 라그랑지안 조정은 학습 동안 탐색을 적응시키며 에너지 승수에서 감소-증가 패턴을 보인다.
에너지 기반 정규화는 명시적 밀도 추정 없이도 고엔트로피 참조에서의 편차를 제한하는 가능성-없는 메커니즘을 제공한다.
확산/유동 기반 벤치마크와 비교할 때, FLAC는 행동당 더 적은 함수 평가로도 성능에 필적하거나 우수한 결과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.