Skip to main content
QUICK REVIEW

[论文解读] On Computing the Total Variation Distance of Hidden Markov Models

Stefan Kiefer|arXiv (Cornell University)|Jan 1, 2018
DNA and Biological Computing参考文献 7被引用 10
一句话总结

本文建立了计算两个隐马尔可夫模型(HMM)词分布之间总变差距离的基本复杂度界限。证明了判断该距离是否超过给定阈值的问题是不可判定的,且近似计算该距离是#P难的,并处于PSPACE中,采用了一种结合浮点数舍入分析与Ladner关于多项式空间计数结果的新技术。

ABSTRACT

We prove results on the decidability and complexity of computing the total variation distance (equivalently, the $L_1$-distance) of hidden Markov models (equivalently, labelled Markov chains). This distance measures the difference between the distributions on words that two hidden Markov models induce. The main results are: (1) it is undecidable whether the distance is greater than a given threshold; (2) approximation is #P-hard and in PSPACE.

研究动机与目标

  • 确定计算两个隐马尔可夫模型(HMM)之间总变差距离的可判定性与计算复杂度。
  • 分析两个HMM之间的距离是否超过给定阈值,解决该问题的可判定性问题。
  • 建立近似计算两个HMM之间总变差距离的计算困难性与上界。
  • 开发一种使用浮点数算术与后向误差分析的PSPACE算法,以近似该距离。
  • 将结果扩展至有限词与无限词HMM,并识别该领域中的开放问题。

提出的方法

  • 通过从概率系统中不可判定问题的约化,证明了阈值问题的不可判定性。
  • 通过将一个#P完全计数问题约化,建立了近似计算的#P难性。
  • 设计了一种PSPACE算法,使用k位浮点数算术在可控舍入误差下,将距离近似到给定误差ε内。
  • 应用后向误差分析,以限制浮点数计算中词概率的相对误差。
  • 利用Ladner关于多项式空间计数的结果,计算一个采样词并比较其近似概率的概率性PSPACE图灵机的接受概率。
  • 采用一种舍入方案,其中每次浮点数运算引入的相对误差被限制在2−k以内,确保近似值保持在真实值的乘法因子(1±θ)范围内。

实验结果

研究问题

  • RQ1判断两个HMM之间总变差距离是否超过给定阈值的问题是否可判定?
  • RQ2近似计算两个HMM之间总变差距离的计算复杂度是什么?
  • RQ3是否可以使用多项式空间,在给定误差界内近似两个HMM之间的距离?
  • RQ4该不可判定性结果是否可扩展至端点概率为零的无限词HMM?
  • RQ5对于有限词或无限词HMM,非严格阈值-距离问题是否可判定?

主要发现

  • 判断两个HMM之间总变差距离是否超过给定阈值的问题是不可判定的。
  • 在任意加法误差ε > 0内近似总变差距离是#P难的。
  • 该距离可在多项式空间内近似到任意期望的加法误差ε内,表明该问题处于PSPACE中。
  • 构造了一种PSPACE算法,使用k位精度的浮点数算术,其中k是输入大小和1/ε的多项式。
  • 近似误差被限制在乘法因子(1±θ)内,其中θ的选择满足4θ = ε/2,从而确保总误差≤ ε/2。
  • 该PSPACE算法依赖于模拟一个概率图灵机,该机器根据一个HMM采样词,并使用后向误差分析比较其近似概率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。