QUICK REVIEW

[論文レビュー] Informed and Automated k-Mer Size Selection for Genome Assembly

Rayan Chikhi, Paul Medvedev|arXiv (Cornell University)|Apr 20, 2013

Genomics and Phylogenetic Studies参考文献 11被引用数 29

ひとこと要約

本稿では、de Bruijn グラフゲノムアセンブラーにおけるk-merサイズ選定を自動化するKmerGenieを提示する。高速かつ正確なサンプリングを用いて近似的なk-mer頻度ヒストグラムを生成し、その後、最適なkを決定するヒューリスティックモデルを適用することで、異なるデータセット（*S. aureus*、ヒト14番染色体、*B. impatiens*を含む）で最高水準のアセンブリ品質を達成する。

ABSTRACT

Genome assembly tools based on the de Bruijn graph framework rely on a parameter k, which represents a trade-off between several competing effects that are difficult to quantify. There is currently a lack of tools that would automatically estimate the best k to use and/or quickly generate histograms of k-mer abundances that would allow the user to make an informed decision. We develop a fast and accurate sampling method that constructs approximate abundance histograms with a several orders of magnitude performance improvement over traditional methods. We then present a fast heuristic that uses the generated abundance histograms for putative k values to estimate the best possible value of k. We test the effectiveness of our tool using diverse sequencing datasets and find that its choice of k leads to some of the best assemblies. Our tool KmerGenie is freely available at: http://kmergenie.bx.psu.edu/

研究の動機と目的

de Bruijn グラフアセンブラーにおける自動的かつ情報に基づいたk-merサイズ選定の欠如に取り組み、アセンブリ品質に顕著な影響を与えること。
各k値ごとに1日程度かかる可能性がある正確なk-mer頻度ヒストグラムの構築に起因する計算上のボトル neck を克服すること。
従来のツールに比べて数個のオーダー以上に高速化される、k-mer頻度ヒストグラムの近似的な推定を実現する高速なサンプリング手法を開発すること。
ヒストグラムから得られる推定値を基に、異なるゲノムのk-merの多様性を最大化するk値を選定するヒューリスティックを開発すること。
アセンブリパイプラインに統合し、ユーザーの介入なしに自動的かつエキスパートフリーなk-merサイズ選定を可能にする。

提案手法

完全なカウントと比較して、計算時間を数個のオーダー以上に短縮できる、高速かつ正確なサンプリングに基づくk-mer頻度ヒストグラムの近似的な推定手法を提案する。
各近似的なヒストグラムに適合する生成的統計モデルを用い、各k値における正確な（エラーのない）ゲノムk-merの数を推定する。
推定された異なるゲノムk-mer数を最大化するk値を選定するヒューリスティックを適用する。
KmerGenieとして実装し、公開されたツールとして提供することで、自動k-merサイズ選定とエキスパートによるレビューが可能な可視化可能なヒストグラムを提供する。
近似的なヒストグラムと正確なヒストグラムを比較することで、サンプリングの正確性を検証し、近似的なヒストグラムが隣接するk値と明確に分離されることを示した。
アセンブリパイプラインに統合し、ユーザーの介入なしにk-merサイズ選定のエンドツーエンド自動化を実現する。

実験結果

リサーチクエスチョン

RQ1高速なサンプリング手法が、k-merサイズ選定を支援するのに十分な正確性を備えつつ、実行時間を数個のオーダー以上に短縮できるか。
RQ2推定された異なるゲノムk-mer数を最大化するというヒューリスティックが、繰り返し配列の含有率やエラー率が異なる多様なゲノムにおいて、信頼性高く最適なk値を特定できるか。
RQ3KmerGenieが自動的に選定したk値は、手動選定またはマルチ-k試行と比較して、アセンブリ品質（例：NG50、コンティグ長、エラー数）において優れているか。
RQ4予測されたゲノムk-mer数の偏差が、ヘテロ接合性などの生物学的要因や、エラーを含むアセンブラによる技術的アーチファクトによってどのように影響を受けるか。
RQ5一様でないカバレッジを持つデータセット（例：シングルセル、メタゲノム、RNA-seq）において、本手法が一般化可能か。この場合、単一の最適kが存在しない可能性がある。

主な発見

KmerGenieにおけるサンプリング手法は、非常に正確で、隣接するk値のヒストグラムと明確に区別できる近似的なk-mer頻度ヒストグラムを生成し、信頼性の高いk-merサイズ選定を可能にする。
KmerGenieが選定したk値は、*S. aureus* および *B. impatiens* のアセンブリで最高のNG50を達成し、他のk値を上回った。ヒト14番染色体では、高品質でバランスの取れたアセンブリが得られた。
予測された異なるゲノムk-mer数は、k値ごとのNG50のトレンドとよく一致しており、ヒューリスティックが繰り返し解像度とエラー耐性のトレードオフを的確に捉えていることを示している。
低k値では、アセンブラが誤ったk-merを誤分類したために、異常に大きなアセンブリ（例：k=21で*S. aureus*では7.65 Mbp）が得られた。カバレッジカットオフを7に引き上げたところ、サイズは2.8 Mbpに減少し、これはアセンブラのアーチファクトであることが確認された。
KmerGenieは、ヘテロ接合性やモデルの限界により、参照値と比較して異なるゲノムk-mer数を過剰に予測しているが、これは高品質なk値を特定する能力に影響を及ぼさなかった。
本手法は多様なゲノムにおいても安定した性能を示し、k-mer頻度パターンに基づく自動k-merサイズ選定が、エキスパートによるチューニングなしにアセンブリの結果を顕著に改善できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。