Skip to main content
QUICK REVIEW

[논문 리뷰] Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations

Yang Xu, Vaneet Aggarwal|arXiv (Cornell University)|2026. 01. 31.
Model Reduction and Neural Networks인용 수 0
한 줄 요약

이 논문은 비에르고딕 비정상 상태의 유한 차 상태 Markov 체인에 대한 Poisson 방정식 해를 안정시키기 위해 quotient-contraction 프레임워크를 개발하고, 게이지 고정된 대표자와 주변 잔차를 학습하기 위한 엔드-투-엔드, 샘플 기반 파이프라인을 제안한다.

ABSTRACT

Poisson equations underpin average-reward reinforcement learning, but beyond ergodicity they can be ill-posed, meaning that solutions are non-unique and standard fixed point iterations can oscillate on reducible or periodic chains. We study finite-state Markov chains with $n$ states and transition matrix $P$. We show that all non-decaying modes are captured by a real peripheral invariant subspace $\mathcal{K}(P)$, and that the induced operator on the quotient space $\mathbb{R}^n/\mathcal{K}(P)$ is strictly contractive, yielding a unique quotient solution. Building on this viewpoint, we develop an end-to-end pipeline that learns the chain structure, estimates an anchor based gauge map, and runs projected stochastic approximation to estimate a gauge-fixed representative together with an associated peripheral residual. We prove $\widetilde{O}(T^{-1/2})$ convergence up to projection estimation error, enabling stable Poisson equation learning for multichain and periodic regimes with applications to performance evaluation of average-reward reinforcement learning beyond ergodicity.

연구 동기 및 목표

  • 유한 상태 Markov 체인에서 에르고딕성을 넘어선 Poisson 방정식 해의 불안정성과 비유일성을 해결하는 것을 목표로 한다.
  • 비감쇠 모드를 주변 불변 부분공간으로 특성화하고, 몫 공간에서의 수축을 분석한다.
  • 체인 구조를 학습하고, 게이지 맵을 추정하며, 투사된 Poisson 방정식을 풀이하는 엔드-투-엔드 샘플 기반 파이프라인을 개발한다.
  • 다중 체인 및 주기적 모드에서 안정적인 정책 평가를 가능하게 하기 위해 게이지 고정된 대표자와 주변 잔차를 제공한다.

제안 방법

  • 단위 모듈러 고유값과 관련된 비감쇠 방향으로 구성된 주변 불변 부분공간 K(P)를 정의한다.
  • 몫 공간 R^n / K(P)를 형성하고 유도된 연산자가 스펙트럼 반지름이 < 1임을 보이며, 이는 수축을 가능하게 한다.
  • 커널 K(P)를 갖는 게이지 프로젝션 Pi를 도입하여 v = Pi(r + Pv)인 투사된 방정식의 범위에서 고유한 고정점을 얻고, 범위(Pi)에서 고정점 v*를 얻는다.
  • 잔차 g* = r + Pv* − v*가 K(P)에 속하며 몫에서 [v*]가 고유한 고정점임을 보인다.
  • 체인 구조를 학습하고, 투사를 통해 게이지를 고정하며, 투사된 확률적 근사를 수행하여 v*와 몫 클래스 [v*]를 추정하는 엔드-투-엔드 파이프라인을 제안한다.
  • 투사 추정 오차를 감안한 엔드-투-엔드 수렴 보장을 제시하며, 속도는 대략 O(T^−1/2)이다.

실험 결과

연구 질문

  • RQ1마르코프 체인이 축소 가능하거나 주기적일 때(즉, 비에르고딕일 때) Poisson 방정식 해를 어떻게 안정화시킬 수 있는가?
  • RQ2몫 공간 접근법이 비감쇠 모드를 제거하고 Poisson 방정식을 학습하기 위한 수축 연산자를 생성할 수 있는가?
  • RQ3전이 행렬을 명시적으로 추정하지 않고 샘플로부터 게이지 맵과 대응되는 프로젝션을 어떻게 학습하나?
  • RQ4몫 공간에서 투사된 확률 근사 방법에 대한 유한 샘플 수렴 보장은 무엇인가?
  • RQ5다중 체인 또는 주기적 모드에서 정책 평가를 재귀적 클래스/단계 구조와 일시적 비용으로 어떻게 분해할 수 있는가?

주요 결과

  • 실제 주변 불변 부분공간 K(P)이 P의 모든 비감쇠 모드를 포착한다.
  • 몫 공간 R^n / K(P)에서 유도된 연산자는 rho(bar P) < 1인 엄격한 수축성을 보인다.
  • 고유한 몫 해 [v*]가 존재하고, range(Pi)에 있는 게이지 고정된 대표자 v*는 g* ∈ K(P)인 잔차를 가지며 유일하다.
  • 엔드-투-엔드 파이프라인은 체인 구조를 학습하고 게이지를 고정하며 투사된 확률적 근사를 사용하여 게이지 추정 오차를 감안한 대략 O(T^−1/2) 수렴을 달성한다.
  • 이 프레임워크는 다중 체인 및 주기적 regimes에서 안정적인 Poisson 방정식 학습을 가능하게 하며, 장기 동작과 일시적 비용의 체계적인 분해를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.