QUICK REVIEW

[论文解读] Revisiting the tree edit distance and its backtracing: A tutorial

Benjamin Paaßen|arXiv (Cornell University)|May 17, 2018

Algorithms and Data Compression被引用 7

一句话总结

本教程提供了一份全面且易于理解的张与沙沙树编辑距离（TED）算法指南，包括高效回溯以重构最优编辑脚本。它引入了广义代价函数，证明了度量性质，并提出了新颖的算法，不仅计算TED，还计算所有最优编辑序列中节点映射的频率，从而支持度量学习和自适应嵌入等应用。

ABSTRACT

Almost 30 years ago, Zhang and Shasha (1989) published a seminal paper describing an efficient dynamic programming algorithm computing the tree edit distance, that is, the minimum number of node deletions, insertions, and replacements that are necessary to transform one tree into another. Since then, the tree edit distance has been widely applied, for example in biology and intelligent tutoring systems. However, the original paper of Zhang and Shasha can be challenging to read for newcomers and it does not describe how to efficiently infer the optimal edit script. In this contribution, we provide a comprehensive tutorial to the tree edit distance algorithm of Zhang and Shasha. We further prove metric properties of the tree edit distance, and describe efficient algorithms to infer the cheapest edit script, as well as a summary of all cheapest edit scripts between two trees.

研究动机与目标

为张与沙沙树编辑距离（TED）算法提供清晰、易懂的教程，该算法在实践中常被视为黑箱。
解决缺乏对重构最优编辑脚本（即回溯）的详细指导的问题，这是TED中关键但记录不足的方面。
通过可定制的编辑代价，对TED框架进行泛化，以支持特定应用的调整。
开发高效算法，计算共最优映射的数量以及所有最优编辑序列中节点配对的频率。
通过将距离表示为映射频率的线性函数，实现TED的参数学习，从而支持度量学习方法。

提出的方法

引入树编辑（插入、删除、替换）上的广义代价函数，允许根据特定领域需求进行定制。
将子树之间的树映射定义为核心接口，用于动态规划，支持TED的递归分解。
提出一种递归回溯算法（替代有缺陷的迭代版本），从动态规划表中重构最优编辑脚本。
提出前向与后向路径计数算法（算法9和10），用于计算编辑图中所有共最优路径的数量。
提出一种前向-后向算法（算法11），用于计算频率矩阵Γ，该矩阵统计每对节点在共最优映射中出现的次数。
推导出TED的线性表示形式，即作为节点对频率（Pc(¯x, ¯y)）加权和，从而支持通过线性模型进行参数学习。

实验结果

研究问题

RQ1如何使树编辑距离算法对不熟悉原始张与沙沙论文的研究人员和实践者更加易懂且可实现？
RQ2从动态规划表中重构最优编辑脚本（即编辑序列）的高效且正确的方法是什么？
RQ3如何高效计算所有共最优编辑序列中节点映射的频率？
RQ4树编辑距离能否被重新表述为映射频率的线性函数，以支持参数学习？
RQ5树编辑距离满足哪些度量性质，以及如何形式化证明这些性质？

主要发现

提出一种修正的递归回溯算法，可可靠地重构最优编辑脚本，修复了先前迭代方法中的缺陷。
前向与后向路径计数算法（算法9和10）高效计算了编辑图中所有共最优路径的数量。
前向-后向算法（算法11）计算了频率矩阵Γ，该矩阵统计每对节点在共最优映射中出现的次数。
树编辑距离可表示为节点对代价的加权和，权重为这些节点对在最优映射中的共现频率，从而支持参数学习。
矩阵Pc(¯x, ¯y) = 1/k · Γ表示最优映射中节点对配对的概率，且TED等于这些配对的期望代价。
位于 https://pypi.org/project/edist/ 的参考实现与修正的递归回溯一致，并支持所有提出的算法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。