[論文レビュー] Biological Profiling of Gene Groups utilizing Gene Ontology
本稿では、高スループット実験からの遺伝子群における生物学的に有意な遺伝子オントロジー(GO)用語を同定するために、分析的偽発見率(FDR)補正を用いた統計的フレームワーク、GOSSIPを提示する。正確な調整p値の計算により、再サンプリングおよび標準的な多重仮説検定補正に比べ、感度と計算効率が向上し、誤検出の最小限の誤検出を伴う、堅牢で自動化された遺伝子リストの生物学的プロファイル化を可能にする。
Increasingly used high throughput experimental techniques, like DNA or protein microarrays give as a result groups of interesting, e.g. differentially regulated genes which require further biological interpretation. With the systematic functional annotation provided by the Gene Ontology the information required to automate the interpretation task is now accessible. However, the determination of statistical significance of a biological process within these groups is still an open question. In answering this question, multiple testing issues must be taken into account to avoid misleading results. Here we present a statistical framework that tests whether functions, processes or locations described in the Gene Ontology are significantly enriched within a group of interesting genes when compared to a reference group. First we define an exact analytical expression for the expected number of false positives that allows us to calculate adjusted p-values to control the false discovery rate. Next, we demonstrate and discuss the capabilities of our approach using publicly available microarray data on cell-cycle regulated genes. Further, we analyze the robustness of our framework with respect to the exact gene group composition and compare the performance with earlier approaches. The software package GOSSIP implements our method and is made freely available at http://gossip.gene-groups.net/.
研究の動機と目的
- 高スループット遺伝子群研究における多重仮説検定に起因する偽陽性の問題に対処すること。
- GO用語の有意性を求める再サンプリングベースの多重仮説検定補正の計算効率の良い代替手法を開発すること。
- GOプロファイリングにおける偽発見率(FDR)を制御する信頼性の高い分析的手法としての調整p値の計算を提供すること。
- ランダムな遺伝子の追加を含む、さまざまな遺伝子群構成下での手法の堅牢性を評価すること。
- 個別遺伝子解析を超えて、正確で自動化された遺伝子群の生物学的解釈を可能にすること。
提案手法
- 本手法は、すべてのテスト対象のGO用語における偽陽性の期待数を正確に計算するための正確な解析的式を用い、FDRの厳密な制御を可能にする。
- 各GO用語について、テスト群とリファレンス群における遺伝子数を比較する2×2のクロス集計表を作成し、用語へのアノテーションを併記する。
- 再サンプリングの計算的負担を回避しながらも高い正確性を維持する解析的FDRアプローチを用いて調整p値を計算する。
- GOの階層的構造(DAG)を考慮し、親用語を通じた暗黙のアノテーションもフレームワークが対象とする。
- 本手法は、オープンソースのソフトウェアパッケージGOSSIPとして実装されており、http://gossip.gene-groups.net/ で入手可能である。
- ランダムに遺伝子をテスト群に逐次追加し、シミュレーション全体を通して用語の存続をモニタリングすることで、堅牢性をテストする。
実験結果
リサーチクエスチョン
- RQ1再サンプリングに比べ、分析的手法がGO機能豊富性解析におけるFDR補正をより正確かつ高速に実行できるか?
- RQ2テスト群にランダムな遺伝子が追加された場合、群の構成に対する感受性はいかがなものか?
- RQ3Benjamini-HochbergおよびBenjamini-Yekutieliといった標準的な多重仮説検定補正法に比べ、本手法はパワーと精度の面で優れているか?
- RQ4本フレームワークは、関連のないあるいは誤検出された関連性を報告することなく、機能的に関連するGO用語を信頼性を持って同定できるか?
- RQ5ノイズや遺伝子リストの摂動が加わった場合、本手法は顕著に有意な用語の検出をどの程度維持できるか?
主な発見
- GOSSIPにおける分析的FDR補正は、再サンプリングシミュレーションと同等の信頼性を持つ調整p値を生成するが、処理時間は数秒で済み、再サンプリングの数時間に比べて顕著に高速である。
- 本手法による調整p値は、単一検定のp値と比較して10,000倍を超える要因の差が生じることがあり、適切な多重仮説検定補正の重要性を強調している。
- Benjamini-Yekutieli法は過剰に慎重であることが判明し、必要最小限の値よりも2〜6倍も高い調整p値を出力しており、統計的パワーを低下させた。
- Benjamini-Hochberg推定は、FDRの制御において劣悪な性能を示したため、本アプリケーションには信頼性が不足していると判断された。
- 非常に有意なGO用語(例:DNA代謝、FDR = 5.2×10⁻⁸)は、500個のランダム遺伝子を追加した後でも99%のケースで検出され、強い堅牢性を示した。
- 中程度の有意性の用語(例:ヌクレオソームのアセンブリ、FDR = 0.0091)は、100個のランダム遺伝子を追加した後でもほぼすべてのケースで検出可能であり、手法の安定性を裏付けた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。