Skip to main content
QUICK REVIEW

[論文レビュー] Revisiting the tree edit distance and its backtracing: A tutorial

Benjamin Paaßen|arXiv (Cornell University)|May 17, 2018
Algorithms and Data Compression被引用数 7
ひとこと要約

本チュートリアルは、張と沙沙の木編集距離(TED)アルゴリズムについて、包括的でアクセスしやすいガイドを提供する。バックトラースを用いた最適編集スクリプトの再構築を含み、一般化されたコスト関数を導入し、メトリック性を証明する。また、最適編集シーケンス全体におけるノードマッピングの頻度を計算する新しいアルゴリズムを提示し、メトリック学習や適応的埋め込みへの応用を可能にする。

ABSTRACT

Almost 30 years ago, Zhang and Shasha (1989) published a seminal paper describing an efficient dynamic programming algorithm computing the tree edit distance, that is, the minimum number of node deletions, insertions, and replacements that are necessary to transform one tree into another. Since then, the tree edit distance has been widely applied, for example in biology and intelligent tutoring systems. However, the original paper of Zhang and Shasha can be challenging to read for newcomers and it does not describe how to efficiently infer the optimal edit script. In this contribution, we provide a comprehensive tutorial to the tree edit distance algorithm of Zhang and Shasha. We further prove metric properties of the tree edit distance, and describe efficient algorithms to infer the cheapest edit script, as well as a summary of all cheapest edit scripts between two trees.

研究の動機と目的

  • 実際の応用においてブラックボックスとして扱われがちな、張と沙沙の木編集距離(TED)アルゴリズムについて、明確でアクセスしやすいチュートリアルを提供すること。
  • 最適編集スクリプト(バックトラース)を再構築するための詳細なガイダンスが不足している現状に応じ、これはTEDにおいて重要なが、文書化が不十分な側面である。
  • ドメイン特有の応用に適応できるように、編集コストをカスタマイズ可能な形でTEDフレームワークを一般化すること。
  • すべての最適編集シーケンスにわたる共最適マッピングの数およびノードペアの頻度を効率的に計算するアルゴリズムを開発すること。
  • 距離をマッピング頻度の線形関数として表現することで、TEDにおけるパrameter学習を可能にすること。

提案手法

  • 木編集(挿入、削除、置換)における一般化されたコスト関数を導入し、ドメイン特有の応用に適応可能にする。
  • 動的計画法のコアインターフェースとして、部分木間のマッピングを定義し、TEDの再帰的分解を可能にする。
  • 動的計画法テーブルから最適編集スクリプトを再構築するための再帰的バックトラースアルゴリズム(誤りのある反復版の代替)を提示する。
  • 編集グラフ内の共最適パスの数を計算する前方および後方パスカウンティングアルゴリズム(アルゴリズム9および10)を提案する。
  • ノードペアが共最適マッピングに現れる回数を数える頻度行列Γを計算する前方・後方アルゴリズム(アルゴリズム11)を導入する。
  • TEDをノードペア頻度(Pc(¯x, ¯y))の重み付き和として表現する線形表現を導出する。これにより、線形モデルによるパrameter学習が可能になる。

実験結果

リサーチクエスチョン

  • RQ1研究者や実務家が元の張と沙沙の論文に不慣れな場合でも、木編集距離アルゴリズムをよりアクセス可能かつ実装可能にする方法は何か?
  • RQ2動的計画法テーブルから最適編集スクリプト(すなわち編集の順序)を効率的かつ正確に再構築する方法は何か?
  • RQ3すべての共最適編集シーケンスにわたるノードマッピングの頻度を効率的に計算する方法は何か?
  • RQ4木編集距離をマッピング頻度の線形関数として再定式化できるか?これによりパrameter学習が可能になるか?
  • RQ5木編集距離が満たすメトリック性とは何か?そして、これらを形式的に証明する方法は何か?

主な発見

  • 誤りのある反復的アプローチに代わる、信頼性の高い最適編集スクリプト再構築を可能にする修正済みの再帰的バックトラースアルゴリズムを提案する。
  • 前方および後方パスカウンティングアルゴリズム(アルゴリズム9および10)は、編集グラフ内の共最適パス数を効率的に計算する。
  • 前方・後方アルゴリズム(アルゴリズム11)は、共最適マッピングに現れるノードペアの頻度行列Γを計算する。
  • 木編集距離は、最適マッピングにおける共起頻度に重み付けされたノードペアコストの線形結合として表現可能であり、パrameter学習を可能にする。
  • 行列Pc(¯x, ¯y) = 1/k · Γは、最適マッピングにおけるノードペアの確率を表し、TEDはこれらのペアの期待コストに等しい。
  • https://pypi.org/project/edist/ に掲載されたリファレンス実装は、修正済みの再帰的バックトラースと、提案されたすべてのアルゴリズムを正しくサポートしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。