Skip to main content
QUICK REVIEW

[論文レビュー] Linear Time Construction of Indexable Founder Block Graphs

Veli Mäkinen, Bastien Cazaux|arXiv (Cornell University)|May 19, 2020
Algorithms and Data Compression被引用数 9
ひとこと要約

本稿では、ギャップのない多次元相同塩基配列アラインメント(MSA)から、セグメント繰り返しのないファウンダーブロックグラフを線形時間で構築するアルゴリズムを提示する。これにより、要約的インデックスを用いた効率的な文字列照合が可能になる。この手法は、最適なセグメンテーションを実現する動的計画法と、完全に機能する双方向BWTインデックスを組み合わせており、元のMSAサイズの3%にしかならない圧縮されたグラフ構造を実現し、高速なパターン照合を可能にしている。

ABSTRACT

We introduce a compact pangenome representation based on an optimal segmentation concept that aims to reconstruct founder sequences from a multiple sequence alignment (MSA). Such founder sequences have the feature that each row of the MSA is a recombination of the founders. Several linear time dynamic programming algorithms have been previously devised to optimize segmentations that induce founder blocks that then can be concatenated into a set of founder sequences. All possible concatenation orders can be expressed as a founder block graph. We observe a key property of such graphs: if the node labels (founder segments) do not repeat in the paths of the graph, such graphs can be indexed for efficient string matching. We call such graphs segment repeat-free founder block graphs. We give a linear time algorithm to construct a segment repeat-free founder block graph given an MSA. The algorithm combines techniques from the founder segmentation algorithms (Cazaux et al. SPIRE 2019) and fully-functional bidirectional Burrows-Wheeler index (Belazzougui and Cunial, CPM 2019). We derive a succinct index structure to support queries of arbitrary length in the paths of the graph. Experiments on an MSA of SAR-CoV-2 strains are reported. An MSA of size $410 imes 29811$ is compacted in one minute into a segment repeat-free founder block graph of 3900 nodes and 4440 edges. The maximum length and total length of node labels is 12 and 34968, respectively. The index on the graph takes only $3\%$ of the size of the MSA.

研究の動機と目的

  • ファウンダーシーケンス上で効率的な文字列照合を可能にする、コンパクトでインデックス可能なパンゲノム表現の開発。
  • MSAからのファウンダーシーケンスの再構築に最適なセグメンテーションを用いることで、パンゲノムモデルにおける過剰表現の問題に対処すること。
  • 要約的インデックスを用いて、ファウンダーブロックグラフのパス上で任意長のパターンを効率的に照合できること。
  • ギャップを含む一般のMSAに対しても、ファウンダーブロックグラフの適用範囲を拡張すること。ただし、理論的基盤はまだ整備中である。

提案手法

  • 動的計画法を用いて、行のマッピングの不連続性を最小限に抑えるように、MSAをファウンダーブロックに最適にセグメント化する。
  • ノードがファウンダーシーケンスの繰り返しのないセグメントを表し、エッジが連続するブロック間の遷移を表す有向無閉路グラフ(DAG)を構築する。
  • セグメント繰り返しのない性質を強制する:任意のパス内で同じセグメントラベルが1度しか現れないため、効率的なインデックス化が可能になる。
  • 双方向Burrows-Wheeler変換(BWT)を完全に機能させるインデックスを統合し、グラフパス上の高速なパターン照合を可能にする。
  • 要約的データ構造を適用してグラフをインデックス化し、最小限のメモリオーバーヘッドを確保する(実験ではMSAサイズの3%に相当)。
  • ネストされたBWTインターバルを検出することで、ギャップを含むMSAに対しても対応可能にし、ネストされた繰り返しが検出された場合は左拡張を延期する。

実験結果

リサーチクエスチョン

  • RQ1ギャップのないMSAから、セグメント繰り返しのない性質を満たすファウンダーブロックグラフを線形時間で構築できるか?
  • RQ2ファウンダーブロックグラフに要約的インデックスを構築することで、任意長のパターンに対する正確な文字列照合をどのように実現できるか?
  • RQ3提案されたインデックス構造の空間的・時間的効率は、元のMSAと比べてどの程度か?
  • RQ4時間計算量やインデックス効率を損なわずに、ギャップを含むMSAに対しても一般化できるか?

主な発見

  • アルゴリズムはギャップのないMSAから、セグメント繰り返しのないファウンダーブロックグラフを線形時間で構築し、行の不連続性を最小限に抑えた最適なセグメンテーションを達成する。
  • 410株、29,811列のSARS-CoV-2 MSAに対して、58秒で3,900ノード、4,440エッジのグラフを生成した。
  • グラフ内のノードラベルの合計長は34,968であり、要約的インデックスはたったの87 KB(元のMSAサイズ2,984 KBの3%)に留まった。
  • 照合のパフォーマンスはMSAサイズに依存せず、パターン長に線形的に増加するが、異なるサンプルサイズやパターン長において一貫した応答時間を示した。
  • グラフのパス上で効率的な文字列照合が可能であり、入力サイズに依存しない性能を示しており、スケーラビリティが確認された。
  • ギャップを含むMSAに対する初期実験では、ギャップなしの場合と同様の挙動を示したが、完全な一般性に対する理論的保証はまだ確立されていない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。