[论文解读] Information Distance Revisited
本文重新探討算法信息论中的信息距离,表明先前声称的前缀版本信息距离与 max(K(x|y), K(y|x)) 在 O(1) 精度下相等,这一说法并不成立。相反,本文证明:除非距离至少为对数级,否则该差值无界;而在距离为超对数级时,对于长度相等的字符串,两者在 O(1) 精度下相等。
We consider the notion of information distance between two objects x and y introduced by Bennett, Gács, Li, Vitanyi, and Zurek [1] as the minimal length of a program that computes x from y as well as computing y from x, and study different versions of this notion. It was claimed by Mahmud [11] that the prefix version of information distance equals max(K(x|y), K(y|) + O(1) (this equality with logarithmic precision was one of the main results of the paper by Bennett, Gács, Li, Vitanyi, and Zurek). We show that this claim is false, but does hold if the information distance is at least super logarithmic.
研究动机与目标
- 更正文献 [12] 中的错误断言,即前缀信息距离在 O(1) 精度下等于 max(K(x|y), K(y|x))。
- 阐明普通版本与前缀版本信息距离之间的区别及其各自定义。
- 确立原始信息距离仅在加上一个常数偏移后才满足三角不等式,而非普遍成立。
- 证明信息距离与 max(K(x|y), K(y|x)) 在 O(1) 精度下相等,仅当距离至少为对数级时成立。
提出的方法
- 采用博弈论方法构造反例,证明前缀信息距离与 max(K(x|y), K(y|x)) 之间的差值无界。
- 首先将博弈策略应用于非双射的前缀稳定版本,然后将其推广至双射情形。
- 使用下半递归半测度与先验概率来建模算法随机性与信息含量。
- 证明函数 min(m(x|y), m(y|x)) 在所有对称且总和不超过 1 的下半递归函数类中达到最大值。
- 利用半测度与柯尔莫哥洛夫复杂度之间的对偶性关系 K(x|y) ≈ −log m(x|y),推导出界限。
- 应用三角不等式,证明当 c 足够大时,max(K(x|y), K(y|x)) + c 满足三角不等式。
实验结果
研究问题
- RQ1正如文献 [12] 所声称的那样,前缀信息距离是否在 O(1) 精度下等于 max(K(x|y), K(y|x))?
- RQ2在对数精度下,前缀信息距离与条件柯尔莫哥洛夫复杂度之间的真实关系是什么?
- RQ3原始信息距离定义在加上一个常数偏移后,是否能满足三角不等式?
- RQ4在何种条件下,信息距离在 O(1) 精度下等于 max(K(x|y), K(y|x))?
- RQ5对于长度为 n 的字符串,前缀信息距离与 max(K(x|y), K(y|x)) 之间的最大无界差值是多少?
主要发现
- 文献 [12] 中关于前缀信息距离在 O(1) 精度下等于 max(K(x|y), K(y|x)) 的断言是错误的。
- 即使对于长度相等的字符串,前缀信息距离与 max(K(x|y), K(y|x)) 之间的差值也是无界的。
- 对于长度为 n 的字符串,该差值最大可达 log log n − O(log log log n)。
- 当 |x| = |y| 且 E1(x,y) ≥ 6 log|x| 时,所有四种前缀信息距离均等于 E1(x,y) + O(1)。
- 原始信息距离仅在加上足够大的常数后才满足三角不等式,而非普遍成立。
- 在对称且总和不超过 1 的下半递归函数类中,最大函数为 min(m(x|y), m(y|x)),其误差在 O(1) 因子内。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。