QUICK REVIEW

[论文解读] Aligning 415 519 proteins in less than two hours on PC

Sebastian Deorowicz, Agnieszka Debudaj-Grabysz|arXiv (Cornell University)|Mar 22, 2016

Genomics and Phylogenetic Studies参考文献 43被引用 31

一句话总结

FAMSA 是一种高度优化、并行化的渐进式多序列比对算法，采用最长公共子序列（LCS）进行成对相似性计算，结合就地轮廓比对与基于单链聚类的内存高效引导树构建。该算法仅使用 8GB 内存，两小时内即可完成 415,519 个蛋白序列的比对，其速度与准确性均优于 Clustal Omega 和 MAFFT，尤其在大规模家族中表现更优，正确对齐的列数最多提升 4 倍。

ABSTRACT

Rapid development of modern sequencing platforms enabled an unprecedented growth of protein families databases. The abundance of sets composed of hundreds of thousands sequences is a great challenge for multiple sequence alignment algorithms. In the article we introduce FAMSA, a new progressive algorithm designed for fast and accurate alignment of thousands of protein sequences. Its features include the utilisation of longest common subsequence measure for determining pairwise similarities, a novel method of gap costs evaluation, and a new iterative refinement scheme. Importantly, its implementation is highly optimised and parallelised to make the most of modern computer platforms. Thanks to the above, quality indicators, namely sum-of-pairs and total-column scores, show FAMSA to be superior to competing algorithms like Clustal Omega or MAFFT for datasets exceeding a few thousand of sequences. The quality does not compromise time and memory requirements which are an order of magnitude lower than that of existing solutions. For example, a family of 415 519 sequences was analysed in less than two hours and required only 8GB of RAM. FAMSA is freely available at http://sun.aei.polsl.pl/REFRESH/famsa.

研究动机与目标

解决包含数万至数十万条序列的大规模蛋白家族比对中的计算瓶颈问题。
克服现有渐进式 MSA 工具（如 Clustal Omega 和 MAFFT）在大规模数据集下存在的内存与时间限制。
开发一种可扩展、内存高效的算法，在极端序列数量下仍能保持高比对准确性。
实现在标准台式机硬件（包括笔记本电脑）上对超大规模蛋白家族的实际比对。
通过新型的间隙罚分调整与迭代优化，提升大规模序列集的比对准确性。

提出的方法

使用最长公共子序列（LCS）作为序列间相似性的度量，通过针对 AVX 指令集优化的位并行算法进行计算。
采用节省内存的单链聚类算法，在 O(k) 空间内构建引导树，避免存储完整的相似性矩阵。
引入一种就地轮廓比对算法，消除渐进比对过程中动态内存重新分配的开销。
提出一种基于序列家族大小调整的新型间隙罚分方案，提升大规模序列集的比对准确性。
采用受 QuickProbs 2 启发的迭代优化方案，校正渐进阶段产生的错误对齐。
利用多线程与 AVX-512 向量化指令，加速现代 CPU 上的 LCS 计算与轮廓比对。

实验结果

研究问题

RQ1当比对包含超过 100,000 条序列的蛋白家族时，渐进式 MSA 算法是否能同时实现高效率与高准确性？
RQ2对于超大规模数据集，是否可行以时间与内存高效的方式计算所有成对相似性？
RQ3就地轮廓比对与单链引导树构建是否能将 400,000+ 条序列家族的内存使用控制在 10GB 以内？
RQ4基于家族大小调整间隙罚分是否能提升大规模 MSA 的比对准确性？
RQ5在不产生不可接受计算成本的前提下，迭代优化是否能有效应用于大规模家族？

主要发现

FAMSA 仅使用 8GB 内存，在两小时内完成对包含 415,519 条序列的最大基准家族 ABC_tran 的比对，而 Clustal Omega 在 128GB 内存机器上运行两天后仍崩溃。
与 MAFFT 在内存高效模式下仅恢复 5.7% 的列相比，FAMSA 恢复了 ABC_tran 家族中 21.3% 的列，表明比对准确性提升 4 倍。
对于超过 25,000 条序列的家族，FAMSA 正确对齐的列数比最准确的 MAFFT 变体多出 35%，比 Clustal Omega 多出 25%。
在 ABC_tran 家族中，FAMSA 的成对和得分（sum-of-pairs score）为 87.3，总列得分（total-column score）为 77.2，尽管运行时间更短，但其准确性仍优于 Clustal Omega（88.5/79.5）与 MAFFT（88.7/79.4）。
该算法的时间与内存需求比竞争工具低一个数量级，使在标准台式机系统上比对大规模家族成为可能。
FAMSA 在 extHomFam 基准的 380 个家族中展现出良好的可扩展性，随着家族规模增大，其在准确性与效率方面均保持一致的优越性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。