Skip to main content
QUICK REVIEW

[论文解读] Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations

Yang Xu, Vaneet Aggarwal|arXiv (Cornell University)|Jan 31, 2026
Model Reduction and Neural Networks被引用 0
一句话总结

该论文提出一个商空间收缩框架来稳定非遍历有限状态马尔可夫链的泊松方程解,并提出一个端到端、基于样本的管线来学习规约不变量的代表和周边残差。

ABSTRACT

Poisson equations underpin average-reward reinforcement learning, but beyond ergodicity they can be ill-posed, meaning that solutions are non-unique and standard fixed point iterations can oscillate on reducible or periodic chains. We study finite-state Markov chains with $n$ states and transition matrix $P$. We show that all non-decaying modes are captured by a real peripheral invariant subspace $\mathcal{K}(P)$, and that the induced operator on the quotient space $\mathbb{R}^n/\mathcal{K}(P)$ is strictly contractive, yielding a unique quotient solution. Building on this viewpoint, we develop an end-to-end pipeline that learns the chain structure, estimates an anchor based gauge map, and runs projected stochastic approximation to estimate a gauge-fixed representative together with an associated peripheral residual. We prove $\widetilde{O}(T^{-1/2})$ convergence up to projection estimation error, enabling stable Poisson equation learning for multichain and periodic regimes with applications to performance evaluation of average-reward reinforcement learning beyond ergodicity.

研究动机与目标

  • 解决有限状态马尔可夫链中泊松方程解在非遍历性下的不稳定性与非唯一性。
  • 用周边不变子空间表征不衰减模,并分析商空间上的收缩性。
  • 开发一个端到端、基于样本的管线以学习链结构、估计规范映射,并求解投影泊松方程。
  • 提供一个规约固定的代表和周边残差,以在多链与周期性状态下实现稳定的策略评估。

提出的方法

  • 定义周边不变子空间 K(P),其中包含与单位模数特征值相关的非衰减方向。
  • 构造商空间 R^n / K(P),并证明所诱导的算子具有谱半径 < 1,从而实现收缩。
  • 引入核为 K(P) 的规范投影 Pi,以在投影方程 v = Pi(r + Pv) 的像中获得唯一的固定点 v*。
  • 证明残差 g* = r + Pv* − v* 落在 K(P) 中,且 [v*] 在商空间上是唯一的固定点。
  • 提出一个端到端管线,通过投影锚定一个规范,并进行投影的随机逼近以估计 v* 和商类 [v*]。
  • 给出一个端到端的收敛性保证,收敛速率约为 ~ O(T^−1/2),并考虑投影估计误差。

实验结果

研究问题

  • RQ1当马尔可夫链可约或周期性(即非遍历)时,如何稳定泊松方程的解?
  • RQ2是否可以通过商空间方法去除不衰减模并获得学习泊松方程的收缩算子?
  • RQ3如何在不显式估计转移矩阵的情况下从样本学习规范映射及相应的投影?
  • RQ4在商空间中的投影随机逼近方法的有限样本收敛性保证是什么?
  • RQ5如何将多链或周期性情形下的策略评估分解为循环态/相结构与瞬时成本?

主要发现

  • 一个实在的周边不变子空间 K(P) 捕获了 P 的所有不衰减模。
  • 在商空间 R^n / K(P) 上诱导的算子严格收缩,ρ(bar P) < 1。
  • 存在唯一的商解 [v*],且位于 range(Pi) 的规约固定代表 v* 唯一,残差 g* ∈ K(P)。
  • 一个端到端的管线学习链结构、锚定规约并使用投影随机逼近实现约 ~ O~(T^−1/2) 的收敛,且受规约估计误差影响。
  • 该框架使多链与周期性情形下的泊松方程学习实现稳定,提供对长期行为和瞬时成本的有根据的分解。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。