QUICK REVIEW

[論文レビュー] Approximate Search for Known Gene Clusters in New Genomes Using PQ-Trees

Galia R. Zimerman, Dina Svetlitsky|arXiv (Cornell University)|Jan 1, 2020

Genome Rearrangement Algorithms参考文献 38被引用数 1

ひとこと要約

本稿では、PQ-ツリーを用いて遺伝子順序の変異をモデル化し、遺伝子置換をスコア関数で、制限された削除・挿入をモデル化することで、新規ゲノムにおける既知の遺伝子クラスタの近似インスタンスを同定するパラメータ化されたアルゴリズム、PQ-Tree Searchを提案する。この手法は、γ を PQ-ツリー内の最大ノード次数として O*(2^γ) の時間計算量を達成し、プラスミドに再配置された29個の染色体由来遺伝子クラスタを同定した。これらには、新しい構造的バリアントを示す重金属効果ポンプも含まれる。

ABSTRACT

We define a new problem in comparative genomics, denoted PQ-Tree Search, that takes as input a PQ-tree $T$ representing the known gene orders of a gene cluster of interest, a gene-to-gene substitution scoring function $h$, integer parameters $d_T$ and $d_S$, and a new genome $S$. The objective is to identify in $S$ approximate new instances of the gene cluster that could vary from the known gene orders by genome rearrangements that are constrained by $T$, by gene substitutions that are governed by $h$, and by gene deletions and insertions that are bounded from above by $d_T$ and $d_S$, respectively. We prove that the PQ-Tree Search problem is NP-hard and propose a parameterized algorithm that solves the optimization variant of PQ-Tree Search in $O^*(2^γ)$ time, where $γ$ is the maximum degree of a node in $T$ and $O^*$ is used to hide factors polynomial in the input size. The algorithm is implemented as a search tool, denoted PQFinder, and applied to search for instances of chromosomal gene clusters in plasmids, within a dataset of 1,487 prokaryotic genomes. We report on 29 chromosomal gene clusters that are rearranged in plasmids, where the rearrangements are guided by the corresponding PQ-tree. One of these results, coding for a heavy metal efflux pump, is further analysed to exemplify how PQFinder can be harnessed to reveal interesting new structural variants of known gene clusters. The code for the tool as well as all the data needed to reconstruct the results are publicly available on GitHub (github.com/GaliaZim/PQFinder).

研究の動機と目的

新規にシーケンスされたゲノム、特にプラスミドにおいて、既知の遺伝子クラスタの近似インスタンスを同定する課題に対処すること。
遺伝子の順序の変異を、階層的関係と許容される再配置を捉える PQ-ツリーを用いてモデル化すること。
配列相同性および機能アノテーションの類似性に基づく遺伝子置換スコアを組み込むこと。
dS および dT のパラメータを用いて遺伝子の削除・挿入を制限することで、特異性と効率性を向上させること。
大規模ゲノムスクリーニングにおいて感度と計算可能性のバランスをとる、スケーラブルなパラメータ化アルゴリズムの開発すること。

提案手法

許容される再配置を符号化するため、既知の遺伝子クラスタを PQ-ツリーとして表現する（P-ノードは子ノードの順序を任意に許可、Q-ノードは固定または逆順序を要件とする）。
遺伝子間の機能的および配列類似性を定量化するための遺伝子対遺伝子置換スコア関数 h を定義する。
PQ-ツリー構造による再配置制限、関数 h による置換制御、dT および dS による削除・挿入制限を含む制約付き最適化問題として PQ-Tree Search 問題を定式化する。
γ を PQ-ツリー内の最大ノード次数として、最適化バージョンを O*(2^γ) 時間で解くパラメータ化アルゴリズムを提案する。
PQFinder として実装し、クエリゲノムとターゲットゲノムの遺伝子間の一対一マッピングをサポートする。これにより、導出履歴の追跡と文字列レベルの変換シミュレーションが可能になる。
樹形の変更（再順序化、削除）および文字列変換（置換、削除）をシミュレートする導出モデル µ を用い、木とシーケンスの導出の整合性を保証する。

実験結果

リサーチクエスチョン

RQ1PQ-ツリーは、特にプラスミドにおいて、多様なゲノムにおける既知の遺伝子クラスタの構造的変異を効果的にモデル化できるか？
RQ2機能アノテーションと組み合わせた遺伝子置換スコアは、生物学的に意味のある相同体の同定をどのように向上させることができるか？
RQ3制限された再配置および置換のもとで、近似遺伝子クラスタインスタンスを同定する計算量的複雑性はいかほどか？
RQ4O*(2^γ) の実行時間を持つパラメータ化アルゴリズムは、大規模ゲノムデータセットに対してどれほどスケーラブルに拡張可能であり、感度を維持できるか？
RQ5このアプローチを用いて、プラスミドで同定可能な既知の遺伝子クラスタの新しい構造的バリアントは何か？

主な発見

PQ-Tree Search 問題は NP-ハードであると証明され、パラメータ化アルゴリズムの必要性が裏付けられた。
提案されたアルゴリズムは、PQ-ツリー内の任意のノードの最大次数 γ を用いて O*(2^γ) 時間で実行可能であり、実用的応用に適している。
PQFinder は、1,487 個の細菌ゲノムにおいて、29 個の染色体由来遺伝子クラスタがプラスミドに再配置されていることを成功裏に同定した。
同定されたクラスタの一つは、重金属効果ポンプをコードするものであり、その新しい構造的バリアントはさらに機能的意義を解明するために分析された。
この手法は、ゲノム再配置、遺伝子置換、挿入・削除に対して感度を示したが、PQ-ツリーの制約により特異性を維持した。
PQFinder のすべてのコードとデータは GitHub で公開されており、再現性とさらなる研究を可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。