Skip to main content
QUICK REVIEW

[論文レビュー] Finding Diverse Strings and Longest Common Subsequences in a Graph

Yuto Shida, Giulia Punzi|arXiv (Cornell University)|Jan 1, 2024
Algorithms and Data Compression被引用数 1
ひとこと要約

本稿では、ハミング距離に基づく最大和および最大最小多様性のある最長共通部分列(LCS)問題を導入し、解析する。K(LCS候補の数)が有界である場合、両問題は多項式時間で解けることを証明する。Kが無限大である場合、両問題はNP困難であり、最大和問題にはPTASが存在する。結果は一般のDAGに基づく文字列表現モデルで確立され、明示的な文字列入力の場合、最大最小多様性のある文字列集合問題からの還元によりNP困難性が示された。

ABSTRACT

In this paper, we study for the first time the Diverse Longest Common Subsequences (LCSs) problem under Hamming distance. Given a set of a constant number of input strings, the problem asks to decide if there exists some subset X of K longest common subsequences whose diversity is no less than a specified threshold Δ, where we consider two types of diversities of a set X of strings of equal length: the Sum diversity and the Min diversity defined as the sum and the minimum of the pairwise Hamming distance between any two strings in X, respectively. We analyze the computational complexity of the respective problems with Sum- and Min-diversity measures, called the Max-Sum and Max-Min Diverse LCSs, respectively, considering both approximation algorithms and parameterized complexity. Our results are summarized as follows. When K is bounded, both problems are polynomial time solvable. In contrast, when K is unbounded, both problems become NP-hard, while Max-Sum Diverse LCSs problem admits a PTAS. Furthermore, we analyze the parameterized complexity of both problems with combinations of parameters K and r, where r is the length of the candidate strings to be selected. Importantly, all positive results above are proven in a more general setting, where an input is an edge-labeled directed acyclic graph (DAG) that succinctly represents a set of strings of the same length. Negative results are proven in the setting where an input is explicitly given as a set of strings. The latter results are equipped with an encoding such a set as the longest common subsequences of a specific input string set.

研究の動機と目的

  • ハミング距離下での多様性のある最長共通部分列(LCS)集合を求める問題の計算複雑性を形式化し、分析すること。
  • パrameter K(LCS候補の数)および r(候補文字列の長さ)に関して、最大和および最大最小多様性LCS問題のパラメータ計算複雑性を調査すること。
  • DAG表現および明示的な文字列入力の両方の設定において、多様性LCS問題の近似および正確なアルゴリズムを確立すること。
  • Kが無限大である場合に、最大和多様性LCS問題が多項式時間近似スキーム(PTAS)を有することを証明すること。
  • Kが無限大である場合に、両問題が最大最小多様性のある文字列集合問題からの還元によりNP困難であることを示すこと。

提案手法

  • 等長の文字列集合における合計多様性(全ペアワイズハミング距離の合計)および最小多様性(最小ペアワイズハミング距離)の2つの多様性測度を形式化する。
  • 指数的多数のLCS候補をコンパクトに表現できるように、入力文字列をエッジラベル付き有向非巡回グラフ(DAG)で表現する。
  • ラベル付きDAG上の二部グラフマッチングを用いて共通部分列をモデル化し、非交差マッチングが有効なLCSに対応する。
  • 最大最小多様性のある文字列集合問題から最大最小多様性LCS問題へのFPT還元技術を用い、NP困難性を示す。
  • LCSのDAGにおける構造的性質と部分グラフ上の動的計画法を活用して、最大和多様性LCS問題のPTASを構築する。
  • 鍵となる変換:各文字列 X_i を固定長の接頭辞と接尾辞を追加した拡張文字列 T_j = P_j · X_j · Q_j に写像し、ハミング距離を保存・強化する。

実験結果

リサーチクエスチョン

  • RQ1パrameter K および r に関して、最大和多様性LCS問題は固定パラメータ可 tractable か?
  • RQ2K が有界か無限大かに応じて、最大最小多様性LCS問題の計算複雑性はどのように変化するか?
  • RQ3最大和多様性LCS問題は任意の定数要因で近似可能か? また、PTASを有するか?
  • RQ4ハミング距離下でのLCS選択において、多様性測度(合計および最小)はどのように振る舞うか?
  • RQ5最大最小多様性のある文字列集合問題から最大最小多様性LCS問題への還元は、解の多様性を保存するか?

主な発見

  • K が有界である場合、最大和および最大最小多様性LCS問題の両方が多項式時間で解ける。
  • K が無限大である場合、両問題はNP困難である。これは、入力が明示的な文字列集合であっても同様に成り立つ。
  • 最大和多様性LCS問題は多項式時間近似スキーム(PTAS)を有する。これは、任意の (1−ε) 要因内で多項式時間で近似可能であることを意味する。
  • 最大最小多様性LCS問題は、2つの入力文字列に制限してもNP困難である。これは最大最小多様性のある文字列集合問題からの還元により示された。
  • 重要な変換として、各文字列 X_i を長さ r + 2s の拡張文字列 T_j = P_j · X_j · Q_j に写像する。このとき dH(T_i, T_j) = dH(X_i, X_j) + 2s が成り立ち、多様性が保存されるとともに強化される。
  • 最大最小多様性のある文字列集合問題から最大最小多様性LCS問題への還元は、NP還元およびFPT還元の両方を満たし、LCSバージョンの困難性を確立する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。