QUICK REVIEW

[論文レビュー] Extensive Simulations for Longest Common Subsequences: Finite Size Scaling, a Cavity Solution, and Configuration Space properties

Jacques Boutet de Monvel|arXiv (Cornell University)|Sep 21, 1998

Algorithms and Data Compression参考文献 25被引用数 26

ひとこと要約

本稿は、ランダムな文字列における最長共通部分列（LCS）問題の広範なモンテカルロシミュレーションを提示し、漸近的LCS長の外挿に正確な有限サイズスケーリング則を導入する。ベルヌーイマッチングモデルに対してキャビティに類似た解析的解を導出し、シミュレーションと非常に良好に一致し、特にアルファベットサイズSが増加するにつれて、ランダム文字列モデルに対する強力な近似を提供する。

ABSTRACT

The Longest Common Subsequence (LCS) Problem asks for the longest sequence of (non-contiguous) matches between two given strings of characters. Using extensive Monte Carlo simulations, we find a finite size scaling law of the form E(L)/N =C + A/(N^1/2 ln N)+... for the mean LCS length of two random strings of size N over S letters. We provide precise estimates of C for S between 2 and 15. We consider also a related Bernoulli Matching model where the different entries of an N times M array are independently occupied with probability 1/S. In that case we find the expression of the limit of L(N,M)/N as N grows to infinity, as a function of r=M/N. This expression provides a very good approximation for the Random String model, which gets more and more accurate as S increases. The question of the ``universality class'' of the LCS problem is also considered. For the Bernoulli Matching model we find very good agreement with recent scaling predictions of Hwa and Lassig for Needleman-Wunsch sequence alignment. We find however that the variance of the LCS length has a different scaling different in the Random String model, suggesting that long-ranged correlations among the matches are relevant in this model. We finally study the ``ground state'' properties of this problem. We find in particular that the number of solutions typically grows exponentially with N, i.e. this system has a residual entropy at T=0. Also the overlap between two LCSs chosen at random is found to be self averaging and to aproach a definite value q(S)<1 as N grows.

研究の動機と目的

有限サイズスケーリングを用いて、ランダム文字列における漸近的LCS長定数γSの精度を向上させること。
簡略化されたベルヌーイマッチングモデルとランダム文字列モデルを比較することで、LCS問題の普遍性クラスを調査すること。
解空間の統計的性質、特に最適LCSの数とそれらの典型的な重なり具合を分析すること。
長距離相関がLCS長の分散スケーリングに与える影響を、標準的なパーコレーションモデルと対比して検討すること。

提案手法

サイズNのランダム文字列に対して大規模なモンテカルロシミュレーションを実施し、平均LCS長E(LN)を推定する。
有限サイズスケーリング則の提案: E(LN)/N = γS + AS/(ln(N√N)) + ... 、有限NデータからγSを外挿する。
ベルヌーイマッチングモデルの導入：N×N行列内、各マッチが確率1/Sで独立に発生する。
キャビティに類似た平均場的手法を用いて、通過時間関数γSB(r) = (2√(rS) - r - 1)/(S - 1) の解析的表現を導出する。
解析的γSB(r)とシミュレーション結果を比較し、キャビティ法の妥当性を検証し、その精度を評価する。
最適LCSの数とその重なり具合を分析することで、解空間構造と自己平均化行動を評価する。

実験結果

リサーチクエスチョン

RQ1ランダム文字列における平均LCS長の有限サイズスケーリング行動は何か？有限Nデータから漸近定数γSの推定を高精度にモデル化できるか？
RQ2ベルヌーイマッチングモデルにおけるキャビティに類似た解析的解は、より複雑なランダム文字列モデルのLCS行動をどの程度正確に近似できるか？
RQ3LCS問題は、指向性高分子や最初到達時パーコレーションと同一の普遍性クラスに属するか？特に分散スケーリングに関して。
RQ4解空間の性質は何か？最適LCSの数は文字列長に従って指数関数的に増加するか？ 2つのランダムに選ばれたLCS間の典型的な重なり具合は？
RQ5ランダム文字列モデルにおけるマッチの長距離相関は、LCS長の分散スケーリングに影響を及ぼすか？また、普遍性にどのような影響を与えるか？

主な発見

有限サイズスケーリング則 E(LN)/N = γS + AS/(ln(N√N)) + ... は、漸近的LCS長を外挿するための極めて正確な手法を提供し、2 ≤ S ≤ 15 の範囲でγSの推定値を顕著に改善する。
ベルヌーイマッチングモデルにおけるキャビティ由来の式 γSB(r) = (2√(rS) - r - 1)/(S - 1) は、数値シミュレーションと非常に良好に一致し、Sが増加するにつれてランダム文字列モデルに対する強力な近似となる。
最適LCSの数NLCSはNに従って指数関数的に増加するため、システムはネルンストの原理を満たさず、解は通常、互いに異なることが示された。
2つのランダムに選ばれたLCS間の重なり具合は自己平均化され、N → ∞ で非ゼロ定数qS < 1 に収束するため、大規模で多様な解空間の存在が確認された。
ベルヌーイマッチングモデルではLCS長の分散Var(LN)はN^2/3に比例するが、ランダム文字列モデルでは異なるスケーリングを示すため、長距離相関が関与しており、普遍性クラスに影響を及ぼす可能性がある。
結果から、ニードルマン＝ウンシャルのようなモデルにおけるギャップペナルティの導入は、長距離相関の効果を抑制し、小Nスケーリング領域を拡大し、ペナルティなしモデルで観察される真の普遍性行動を隠す可能性があると示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。