Skip to main content
QUICK REVIEW

[論文レビュー] A Likelihood-Free Inference Framework for Population Genetic Data using Exchangeable Neural Networks

Jeffrey Chan, Valerio Perrone|arXiv (Cornell University)|Feb 16, 2018
Bayesian Methods and Mixture Models参考文献 45被引用数 40
ひとこと要約

本論文は、交換可能なニューラルネットワークと即時生成(simulation-on-the-fly)トレーニングパラダイムを提案し、交換可能な集団遺伝データに対して尤度なし、要約統計量なしのベイズ推論を行う手法を導入する。再結合ホットスポットの検定で実証を示す。

ABSTRACT

An explosion of high-throughput DNA sequencing in the past decade has led to a surge of interest in population-scale inference with whole-genome data. Recent work in population genetics has centered on designing inference methods for relatively simple model classes, and few scalable general-purpose inference techniques exist for more realistic, complex models. To achieve this, two inferential challenges need to be addressed: (1) population data are exchangeable, calling for methods that efficiently exploit the symmetries of the data, and (2) computing likelihoods is intractable as it requires integrating over a set of correlated, extremely high-dimensional latent variables. These challenges are traditionally tackled by likelihood-free methods that use scientific simulators to generate datasets and reduce them to hand-designed, permutation-invariant summary statistics, often leading to inaccurate inference. In this work, we develop an exchangeable neural network that performs summary statistic-free, likelihood-free inference. Our framework can be applied in a black-box fashion across a variety of simulation-based tasks, both within and outside biology. We demonstrate the power of our approach on the recombination hotspot testing problem, outperforming the state-of-the-art.

研究の動機と目的

  • 手作りの要約を使わず、rawな交換可能な母集団遺伝データ上で直接機能する汎用の尤度なし推論フレームワークを開発する。
  • データの順列不変性を尊重するため交換可能ニューラルネットワークを活用し、事後写像を学習する。
  • 事後の較正と一般化を改善するための simulation-on-the-fly トレーニングパラダイムを導入する。
  • 再結合ホットスポット検定と推定への適用を示し、最先端手法と比較する。
  • ABCに相当する尤度なし設定のもとでの理論的性質と診断法を提供する。

提案手法

  • 二値データ行列の各行に同じ関数を適用し、対称関数で集約して事後へ写像する交換可能ニューラルネットワークを設計する。
  • 行入力を処理する畳み込みサブネットワーク Phi、行出力を結合する対称関数 g、θ に対する事後を出力する最終ネットワーク h を用いる。
  • 各トレーニングポイントを事前分布とシミュレータから新たに引き直す simulation-on-the-fly トレーニング regime を採用し、較正された事後を保証する。
  • このアプローチはアモタイズドな、統計量なしの推論を、ABCと同等かそれ以上の較正とともにもたらすと主張する。
  • 較正と漸近性を simulation-on-the-fly パラダイムに結びつける理論的正当化を提供する。
  • 二値の集団遺伝データを用いた再結合ホットスポット検定と連続的なホットスポット強度推定へのフレームワークの適用。)

実験結果

リサーチクエスチョン

  • RQ1要約統計なしで、rawな交換可能な母集団遺伝データ上に直接構築できる尤度なしベイズ推論法は作れるか?
  • RQ2母集団遺伝データから事後を学習する際、交換可能ニューラルネットワークは非交換可能なアーキテクチャとどう比較されるか?
  • RQ3simulation-on-the-fly トレーニング regime は固定された学習セットに比べて較正された事後と一般化の改善をもたらすか?
  • RQ4提案手法は LDhot や他のベースラインと比較して、再結合ホットスポット検定と強度推定でどのように性能を示すか?
  • RQ5このフレームワークはホットスポット検定を超えた他の集団遺伝設定へどの程度拡張可能か?

主な発見

  • 交換可能ニューラルネットワークは順列不変性を尊重し、データを事後分布へ写像する。
  • simulation-on-the-fly トレーニングは固定学習セットと比較して較正された事後を生み出し、バイアスと分散を低減する。
  • この手法は LDhot に比べて現実的な組換えマップの下でホットスポット検定において上回り、シーケンス数に対して線形にスケールする。
  • ホットスポット強度推定では事後の較正が名目値に近く、事後平均は真値と強い相関を示す。
  • この手法は LDhot に比べて計算コストが比較的低いまま、ホットスポット検出で 90% の精度を達成する。
  • 手法は大規模な局所領域へスケールし、手作りの要約なしでさまざまな集団遺伝タスクへ拡張可能である。)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。