[論文レビュー] SISRS: SNP Identification from Short Read Sequences
SISRSは、デノボアセンブリーやアラインメントを回避することで、リファレンスゲノムに依存しない新規の手法であり、短鎖配列データから系統的情報をもつSNPを迅速に同定する。この手法は、サルおよび胎盤類の系統樹再構築を数千の可変部位を用いて正確に行うことができ、リファレンスゲノムがなくても高い効率と正確性を示す。
We have developed a novel method to rapidly obtain homologous genomic data for phylogenetics directly from next-generation sequencing reads without the use of a reference genome. This software, called SISRS, avoids the time consuming steps of de novo whole genome assembly, genome-genome alignment, and annotation. For simulations SISRS is able to identify large numbers of loci containing variable sites with phylogenetic signal. For genomic data from apes, SISRS identified thousands of variable sites, from which we produced an accurate phylogeny. Finally, we used SISRS to identify phylogenetic markers that we used to estimate the phylogeny of placental mammals. We recovered phylogenies from multiple datasets that were consistent with previous conflicting estimates of the relationships among mammals. SISRS is open source and freely available at this https URL.
研究の動機と目的
- リファレンスゲノムを回避し、デノボアセンブリーやゲノムアラインメントといった時間のかかる手順を省略して系統解析を実行する手法を開発すること。
- 次世代シーケンシングリードから直接、系統的信号を持つ相同なゲノム領域を同定すること。
- 特にモデルでない生物において、短鎖リードのみを用いて正確な系統樹推定を可能にすること。
- 多様な taxon におけるSNP同定および系統樹再構築のためのスケーラブルでオープンソースのソリューションを提供すること。
提案手法
- SISRSは、リファレンスゲノムを必要とせず、複数の短鎖リードデータセット間で相同な領域を同定するために、リードのクラスタリングとアラインメントを実行するリファレンスフリーなアプローチを採用する。
- k-merに基づく戦略を用いて、サンプル間で共有されるゲノム領域を同定し、デノボアセンブリを経ずに領域同定を可能にする。
- アラインドリードから可変部位を抽出し、後続の解析に適した系統的信号を持つ部位に焦点を当てる。
- リードクラスタリングと反復的アラインメントを活用して、複雑または発散したゲノム領域でさえも相同遺伝子座を解明する。
- 同定されたSNPを用いて、標準的な系統解析手法を用いて系統樹を構築する。
実験結果
リサーチクエスチョン
- RQ1リファレンスゲノムがなくても、短鎖リードからSNPの同定と系統樹再構築を達成できるか?
- RQ2SISRSは、リファレンスゲノムなしに、サルの既知の系統的関係をどの程度正確に回復できるか?
- RQ3SISRSは、デノボSNP同定を用いて、長年にわたり論争の続いている胎盤類の系統関係を解消できるか?
- RQ4複雑なゲノムデータセットにおいて、SISRSはリファレンスベースの手法と比べて効率性と正確性で優れているか?
主な発見
- SISRSはサルゲノムデータにおいて、系統的信号を持つ数千の可変部位を正確に同定し、正確な系統樹再構築を可能にした。
- 複数のデータセットから一貫性があり正確な系統樹が得られ、以前に矛盾していた胎盤類の系統関係が解消された。
- SISRSは、デノボアセンブリーやゲノムワイドアラインメントといった計算コストの高いステップを回避することで、高い効率性を示した。
- ソフトウェアはオープンソースであり、自由に利用可能であり、モデルでない生物やリファレンスフリーな系統解析への広範な応用を可能にしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。