Skip to main content
QUICK REVIEW

[論文レビュー] Aligning 415 519 proteins in less than two hours on PC

Sebastian Deorowicz, Agnieszka Debudaj-Grabysz|arXiv (Cornell University)|Mar 22, 2016
Genomics and Phylogenetic Studies参考文献 43被引用数 31
ひとこと要約

FAMSA は、最長共通部分列(LCS)を用いた対比較類似度、インプレイスプロファイルアラインメント、およびシングルリンクアグロメレーションを用いたメモリ効率の良いガイドツリー構築を特徴とする、高度に最適化され並列化されたプログレッシブな多次元配列アラインメントアルゴリズムである。8GBのRAMのみで415,519個のタンパク質配列を2時間未塔でアラインメントでき、Clustal Omega や MAFFT よりもスピードと正確性に優れ、特に大規模なファミリーにおいて最大4倍の正確なアラインメントカラムを達成する。

ABSTRACT

Rapid development of modern sequencing platforms enabled an unprecedented growth of protein families databases. The abundance of sets composed of hundreds of thousands sequences is a great challenge for multiple sequence alignment algorithms. In the article we introduce FAMSA, a new progressive algorithm designed for fast and accurate alignment of thousands of protein sequences. Its features include the utilisation of longest common subsequence measure for determining pairwise similarities, a novel method of gap costs evaluation, and a new iterative refinement scheme. Importantly, its implementation is highly optimised and parallelised to make the most of modern computer platforms. Thanks to the above, quality indicators, namely sum-of-pairs and total-column scores, show FAMSA to be superior to competing algorithms like Clustal Omega or MAFFT for datasets exceeding a few thousand of sequences. The quality does not compromise time and memory requirements which are an order of magnitude lower than that of existing solutions. For example, a family of 415 519 sequences was analysed in less than two hours and required only 8GB of RAM. FAMSA is freely available at http://sun.aei.polsl.pl/REFRESH/famsa.

研究の動機と目的

  • 数万から数十万個の配列を含む大規模タンパク質ファミリーのアラインメントにおける計算ボトル neck を解消すること。
  • 大規模データセット向けに、Clustal Omega や MAFFT などの既存のプログレッシブ MSA ツールが直面するメモリおよび時間的制限を克服すること。
  • 極めて多数の配列に対しても高いアラインメント正確性を維持できるスケーラブルでメモリ効率の良いアルゴリズムを開発すること。
  • ラップトップを含む一般的なデスクトップハードウェアでも、大規模タンパク質ファミリーの実用的アラインメントを可能にすること。
  • 新規のギャップペナルティ調整と反復的リファインメントにより、大規模セットのアラインメント正確性を向上させること。

提案手法

  • 配列間の類似度として最長共通部分列(LCS)を用い、AVX命令セットに最適化されたビット並列アルゴリズムにより計算する。
  • 完全な類似度行列を保存しないように、O(k)のメモリ空間で実現されるメモリ効率の良いシングルリンクアグロメレーションアルゴリズムを用いてガイドツリーを構築する。
  • プログレッシブアラインメント中に動的メモリ再割り当てを回避するインプレイスプロファイルアラインメントアルゴリズムを導入する。
  • ファミリーのサイズに応じてギャップペナルティを調整する新規なスキームを採用し、大規模セットのアラインメント正確性を向上させる。
  • QuickProbs 2 をインspired した反復的リファインメントスキームを用いて、プログレッシブ段階での誤アラインメントを是正する。
  • 現代のCPU上でLCS計算およびプロファイルアラインメントを高速化するため、マルチスレッディングとAVX-512ベクタ化を活用する。

実験結果

リサーチクエスチョン

  • RQ110万配列を超えるタンパク質ファミリーをアラインメントする際、プログレッシブ MSA アルゴリズムが高スループットと高正確性を両立できるか?
  • RQ2非常に大規模なデータセットに対して、LCS を用いてすべての対比較類似度を時間的・メモリ的に効率的に計算することが可能か?
  • RQ3インプレイスプロファイルアラインメントおよびシングルリンクガイドツリー構築により、40万配列以上のファミリーにおいてメモリ使用量を10GB未満に抑えることができるか?
  • RQ4ファミリーのサイズに応じたギャップペナルティの調整が、大規模 MSA のアラインメント正確性を向上させるか?
  • RQ5計算コストが著しく増大することなく、反復的リファインメントを大規模ファミリーに効果的に適用できるか?

主な発見

  • FAMSA は、415,519個の配列を有する最大のベンチマークファミリーである ABC_tran を、わずか8GBのRAMで2時間未塔でアラインメントした。一方、Clustal Omega は128GBメモリを搭載したマシンでも2日後にクラッシュした。
  • ABC_tran ファミリーにおいて、FAMSA は21.3%のカラムを回復させたが、MAFFT のメモリ効率モードではたった5.7%にとどまり、正確性が4倍向上した。
  • 25,000配列を超えるファミリーでは、FAMSA は最も正確な MAFFT バージョンよりも35%多くカラムを正しくアラインメントし、Clustal Omega よりも25%多くアラインメントした。
  • ABC_tran ファミリーにおいて、FAMSA はスム・オブ・ペアスコア87.3、トータルカラムスコア77.2を達成した。これは、実行時間は短いものの、Clustal Omega(88.5/79.5)や MAFFT(88.7/79.4)を上回る正確性を示した。
  • アルゴリズムの時間的およびメモリ的要件は、競合ツールと比較して1桁低い水準であり、大規模ファミリーのアラインメントを一般的なデスクトップシステムで可能にした。
  • FAMSA のスケーラビリティは、extHomFam ベンチマークの380個のファミリーにおいて実証され、ファミリーのサイズが増加するにつれて、正確性と効率性の両面で一貫した優位性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。