QUICK REVIEW

[논문 리뷰] Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations

Yang Xu, Vaneet Aggarwal|arXiv (Cornell University)|2026. 01. 31.

Model Reduction and Neural Networks인용 수 0

한 줄 요약

이 논문은 비에르고딕 비정상 상태의 유한 차 상태 Markov 체인에 대한 Poisson 방정식 해를 안정시키기 위해 quotient-contraction 프레임워크를 개발하고, 게이지 고정된 대표자와 주변 잔차를 학습하기 위한 엔드-투-엔드, 샘플 기반 파이프라인을 제안한다.

ABSTRACT

Poisson equations underpin average-reward reinforcement learning, but beyond ergodicity they can be ill-posed, meaning that solutions are non-unique and standard fixed point iterations can oscillate on reducible or periodic chains. We study finite-state Markov chains with $n$ states and transition matrix $P$. We show that all non-decaying modes are captured by a real peripheral invariant subspace $\mathcal{K}(P)$, and that the induced operator on the quotient space $\mathbb{R}^n/\mathcal{K}(P)$ is strictly contractive, yielding a unique quotient solution. Building on this viewpoint, we develop an end-to-end pipeline that learns the chain structure, estimates an anchor based gauge map, and runs projected stochastic approximation to estimate a gauge-fixed representative together with an associated peripheral residual. We prove $\widetilde{O}(T^{-1/2})$ convergence up to projection estimation error, enabling stable Poisson equation learning for multichain and periodic regimes with applications to performance evaluation of average-reward reinforcement learning beyond ergodicity.

연구 동기 및 목표

유한 상태 Markov 체인에서 에르고딕성을 넘어선 Poisson 방정식 해의 불안정성과 비유일성을 해결하는 것을 목표로 한다.
비감쇠 모드를 주변 불변 부분공간으로 특성화하고, 몫 공간에서의 수축을 분석한다.
체인 구조를 학습하고, 게이지 맵을 추정하며, 투사된 Poisson 방정식을 풀이하는 엔드-투-엔드 샘플 기반 파이프라인을 개발한다.
다중 체인 및 주기적 모드에서 안정적인 정책 평가를 가능하게 하기 위해 게이지 고정된 대표자와 주변 잔차를 제공한다.

제안 방법

단위 모듈러 고유값과 관련된 비감쇠 방향으로 구성된 주변 불변 부분공간 K(P)를 정의한다.
몫 공간 R^n / K(P)를 형성하고 유도된 연산자가 스펙트럼 반지름이 < 1임을 보이며, 이는 수축을 가능하게 한다.
커널 K(P)를 갖는 게이지 프로젝션 Pi를 도입하여 v = Pi(r + Pv)인 투사된 방정식의 범위에서 고유한 고정점을 얻고, 범위(Pi)에서 고정점 v*를 얻는다.
잔차 g* = r + Pv* − v*가 K(P)에 속하며 몫에서 [v*]가 고유한 고정점임을 보인다.
체인 구조를 학습하고, 투사를 통해 게이지를 고정하며, 투사된 확률적 근사를 수행하여 v*와 몫 클래스 [v*]를 추정하는 엔드-투-엔드 파이프라인을 제안한다.
투사 추정 오차를 감안한 엔드-투-엔드 수렴 보장을 제시하며, 속도는 대략 O(T^−1/2)이다.

실험 결과

연구 질문

RQ1마르코프 체인이 축소 가능하거나 주기적일 때(즉, 비에르고딕일 때) Poisson 방정식 해를 어떻게 안정화시킬 수 있는가?
RQ2몫 공간 접근법이 비감쇠 모드를 제거하고 Poisson 방정식을 학습하기 위한 수축 연산자를 생성할 수 있는가?
RQ3전이 행렬을 명시적으로 추정하지 않고 샘플로부터 게이지 맵과 대응되는 프로젝션을 어떻게 학습하나?
RQ4몫 공간에서 투사된 확률 근사 방법에 대한 유한 샘플 수렴 보장은 무엇인가?
RQ5다중 체인 또는 주기적 모드에서 정책 평가를 재귀적 클래스/단계 구조와 일시적 비용으로 어떻게 분해할 수 있는가?

주요 결과

실제 주변 불변 부분공간 K(P)이 P의 모든 비감쇠 모드를 포착한다.
몫 공간 R^n / K(P)에서 유도된 연산자는 rho(bar P) < 1인 엄격한 수축성을 보인다.
고유한 몫 해 [v*]가 존재하고, range(Pi)에 있는 게이지 고정된 대표자 v*는 g* ∈ K(P)인 잔차를 가지며 유일하다.
엔드-투-엔드 파이프라인은 체인 구조를 학습하고 게이지를 고정하며 투사된 확률적 근사를 사용하여 게이지 추정 오차를 감안한 대략 O(T^−1/2) 수렴을 달성한다.
이 프레임워크는 다중 체인 및 주기적 regimes에서 안정적인 Poisson 방정식 학습을 가능하게 하며, 장기 동작과 일시적 비용의 체계적인 분해를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.