Skip to main content
QUICK REVIEW

[論文レビュー] RTED: A Robust Algorithm for the Tree Edit Distance

Mateusz Pawlik, Nikolaus Augsten|arXiv (Cornell University)|Dec 31, 2011
Graph Theory and Algorithms参考文献 2被引用数 33
ひとこと要約

本稿では、部分問題の数を最小化するため、動的に最適な分解戦略(左/右に偏ったもの)を選択する、ロバストな木編集距離アルゴリズムRTEDを提案する。従来の手法とは異なり、木の形状に依存して性能が予測不能になるのを回避し、最悪計算量においてO(n³)時間、O(n²)空間を保証する。理論的および実用的両面で、既存のすべての競合手法を上回り、任意の入力木のペアに対して、最良の代替手法と同等以下の部分問題数を計算する。

ABSTRACT

We consider the classical tree edit distance between ordered labeled trees, which is defined as the minimum-cost sequence of node edit operations that transform one tree into another. The state-of-the-art solutions for the tree edit distance are not satisfactory. The main competitors in the field either have optimal worst-case complexity, but the worst case happens frequently, or they are very efficient for some tree shapes, but degenerate for others. This leads to unpredictable and often infeasible runtimes. There is no obvious way to choose between the algorithms. In this paper we present RTED, a robust tree edit distance algorithm. The asymptotic complexity of RTED is smaller or equal to the complexity of the best competitors for any input instance, i.e., RTED is both efficient and worst-case optimal. We introduce the class of LRH (Left-Right-Heavy) algorithms, which includes RTED and the fastest tree edit distance algorithms presented in literature. We prove that RTED outperforms all previously proposed LRH algorithms in terms of runtime complexity. In our experiments on synthetic and real world data we empirically evaluate our solution and compare it to the state-of-the-art.

研究の動機と目的

  • 既存の木編集距離アルゴリズムの予測不能でしばしば過大な実行時間の問題を解消すること。これは木の構造に大きく依存する。
  • あらゆる木の形状にわたって高い効率を維持しながら、最悪計算量が最適であることを保証する手法を開発すること。
  • 左・右に偏ったノード削除の間で動的に切り替えることで、部分問題数を最小化する動的分解戦略を導入すること。
  • 空間効率的で、入力の変動に強く、理論的かつ実験的根拠を備えた木編集距離アルゴリズムを提供すること。
  • 合成および実世界のデータセットを用いた実験により、RTEDが最先端のアルゴリズムを上回ることを実証すること。

提案手法

  • 各再帰的段階で分解戦略を動的に選べるLRH(左-右-重視)アルゴリズムのクラスを導入し、従来の手法を一般化する。
  • 任意のLRH戦略をO(n²)空間およびO(n³)時間で実装するGTED(一般木編集距離)フレームワークを提案する。
  • GTEDに最適なLRH戦略を計算する効率的なO(n²)時間および空間のアルゴリズムを開発し、全体の計算量に影響を与えない。
  • 部分問題数をモデル化する再帰的コスト式を用い、合計部分問題数を最小化する戦略を動的に選択する。
  • 下からの動的計画法を用いて、実際の編集距離を計算する前に、最適な分解経路を事前に計算する。
  • 戦略計算をメインアルゴリズムにスムーズに統合し、実行時間のオーバーヘッドを最小限に抑える。

実験結果

リサーチクエスチョン

  • RQ1あらゆる木の形状において、最悪計算量が最適でかつ一貫した効率性を示す木編集距離アルゴリズムを設計できるか?
  • RQ2任意の木ペアに対して部分問題数を最小化する動的分解戦略は存在するか?
  • RQ3主アルゴリズムの漸近的空間・時間計算量を増加させることなく、最適なLRH戦略を効率的に計算できるか?
  • RQ4RTEDの性能は、さまざまな木構造における既存の最先端アルゴリズムと比べてどの程度優れているか?
  • RQ5実用的応用において、アルゴリズムの選択が実行時間に顕著に影響を与える程度はどの程度か?

主な発見

  • RTEDは、任意の入力木ペアに対して、既知のすべてのLRHアルゴリズムと同等以下の部分問題数を計算するため、部分問題数において理論的に最適である。
  • 実験では、RTEDは最良の競合手法よりも部分問題数で5.6%から30.6%の優位性を示し、木が大きくなるほどその差が拡大した。
  • TreeFamデータセットの最大木において、RTEDは最悪の競合手法よりも18倍も少ない部分問題数を計算した。
  • RTEDの戦略計算フェーズは、合計実行時間のわずかな割合にとどまり、木のサイズが大きくなるに従い減少した。
  • RTEDの実行時間はあらゆる木の形状において安定しており、特定の木タイプで性能が著しく低下するZhangおよびDemaineのアルゴリズムとは対照的であった。
  • 実験結果により、RTEDが効率的かつ予測可能であることが確認され、変動する木構造を伴う実世界の応用に適していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。