Skip to main content
QUICK REVIEW

[論文レビュー] Twelve years of SAMtools and BCFtools

Petr Danecek, James Bonfield|arXiv (Cornell University)|Dec 18, 2020
Genomics and Phylogenetic Studies参考文献 19被引用数 2
ひとこと要約

この論文は、高スループットシーケンシングデータを処理する基盤的なバイオインフォマティクスツールであるSAMtoolsおよびBCFtoolsの12年間の開発をレビューしている。これらのツールは、SAM/BAM/CRAMアラインメントファイルおよびVCF/BCFバリアントファイルの効率的かつ柔軟な操作を可能にし、ネイティブなマルチスレーディング、CRAMフォーマット対応、HTSlibとの統合といった重要な進歩を遂げた。主な貢献は、ミリオン回以上の解析に使用される成熟した、高性能で広く採用されているエコシステムの構築である。

ABSTRACT

BACKGROUND: SAMtools and BCFtools are widely used programs for processing and analysing high-throughput sequencing data. They include tools for file format conversion and manipulation, sorting, querying, statistics, variant calling, and effect analysis amongst other methods. FINDINGS: The first version appeared online 12 years ago and has been maintained and further developed ever since, with many new features and improvements added over the years. The SAMtools and BCFtools packages represent a unique collection of tools that have been used in numerous other software projects and countless genomic pipelines. CONCLUSION: Both SAMtools and BCFtools are freely available on GitHub under the permissive MIT licence, free for both non-commercial and commercial use. Both packages have been installed >1 million times via Bioconda. The source code and documentation are available from https://www.htslib.org.

研究の動機と目的

  • 12年間にわたる積極的なメンテナンスを通じて、SAMtoolsおよびBCFtoolsの進化と継続的開発を文書化すること。
  • ますます大規模なシーケンシングデータセットを効率的に処理できる技術的進歩を強調すること。
  • さまざまなゲノムプロジェクトおよびソフトウェアエコシステムにおけるツールの採用と統合の様子を示すこと。
  • 今後の課題と計画された拡張機能(大規模ゲノムおよび複雑なバリアント表現のサポートを含む)を概説すること。

提案手法

  • 著者らは、GitHubからのバージョン管理のコミット履歴、機能リリース、ユーザーからのフィードバックを分析することで、SAMtoolsおよびBCFtoolsの進化を逆行的に分析した。
  • 複数のリリースにわたる、ソーティング、インデックス作成、バリアントコールといったコア操作のベンチマークを通じて、パフォーマンスの向上を評価した。
  • これらのツールはC言語で実装されており、低レベルのI/Oおよびデータフォーマット処理にはHTSlibに依存しており、高速かつ低メモリ使用量を実現している。
  • 継続的インテグレーションおよび自動化テスト(Valgrind、AddressSanitizer、UndefinedBehaviorSanitizerを含む)により、コードの信頼性と移植性が確保された。
  • BCFtoolsに統合されたプラグインおよび拡張性の仕組みにより、機能的影響予測やトリオベースのバリアント解析といった動的機能拡張が可能になった。
  • Vertebrate、植物、ウイルス、病原体ゲノムを含む多様な生物学的データタイプに対してツールをデプロイ・評価し、堅牢性およびスケーラビリティを検証した。

実験結果

リサーチクエスチョン

  • RQ112年間にわたる開発を通じて、SAMtoolsおよびBCFtoolsの機能的・パフォーマンス的進化はどのように遂げられたか?
  • RQ2シーケンシングプロジェクトにおけるデータサイズおよび複雑さの増大に対応するため、どのようなアーキテクチャ的決定がなされたか?
  • RQ3VEP や GATK といった広く使われている他のツールと比較して、SAMtoolsおよびBCFtoolsのパフォーマンスおよびメモリ効率はいかがだったか?
  • RQ4コミュニティ主導の開発およびオープンソース貢献は、ツールの機能セットおよび信頼性にどのように影響を与えたか?
  • RQ5大規模ゲノム、複雑なバリアント、新しいシーケンシング技術のサポートにおいて、今後の課題は何か?

主な発見

  • SAMtoolsは52回、BCFtoolsは49回のリリースを経ており、SAMtoolsリポジトリには2,200件を超えるコミット、BCFtoolsには1,400件を超えるテストが存在する。
  • これらのツールは、SAM、BAM、CRAMファイルの読み取り・書き込み・処理においてネイティブなマルチスレーディングをサポートしており、現代のハードウェア上で顕著なパフォーマンス向上を実現している。
  • BCFtoolsのバリアント効果予測用コマンド「csq」は、VEPに比べて100倍以上高速で、メモリ使用量も大幅に少ないことから、極めて高い効率性を示している。
  • Bioconda経由で100万回を超えるインストールが行われており、GitHubでのサポート要請および機能要請の解決件数が900件を超えた。
  • これらのツールは、大規模ゲノム(2 Gbase以上)および複雑なポリポイド数を有する種類を含む多様な生物に成功裏に適用されてきたが、完全な64ビットゲノムサポートはまだ部分的である。
  • BCFtoolsでは、高多様性領域における4GBのサイト制限を解消するため、線形スケーリングされたアノテーションを備えたVCFフォーマット拡張が実装された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。