QUICK REVIEW

[論文レビュー] Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data

Ehsan Hajiramezanali, Siamak Zamani Dadaneh|arXiv (Cornell University)|Oct 22, 2018

Gene expression and cancer classification被引用数 32

ひとこと要約

本稿では、複数のがん種にまたがる過分散NGSカウントデータから共有要因とドメイン固有の潜在要因を学習する階層的ネガティブバイノミアル因子分解モデルであるベイジアンマルチドメイン学習（BMDL）を提案する。ベータ・ベルヌーイ過程の事前分布を用いて潜在要因をドメインに適応的に割り当てることで、少数のサンプルしか存在しないターゲットドメインにおいても、負の転送を伴わず頑健なサブタイピングが可能となり、HDPベースの手法に比べ最大16%の精度向上、非常に関連性の高いソースデータでは8%の向上を達成した。

ABSTRACT

Precision medicine aims for personalized prognosis and therapeutics by utilizing recent genome-scale high-throughput profiling techniques, including next-generation sequencing (NGS). However, translating NGS data faces several challenges. First, NGS count data are often overdispersed, requiring appropriate modeling. Second, compared to the number of involved molecules and system complexity, the number of available samples for studying complex disease, such as cancer, is often limited, especially considering disease heterogeneity. The key question is whether we may integrate available data from all different sources or domains to achieve reproducible disease prognosis based on NGS count data. In this paper, we develop a Bayesian Multi-Domain Learning (BMDL) model that derives domain-dependent latent representations of overdispersed count data based on hierarchical negative binomial factorization for accurate cancer subtyping even if the number of samples for a specific cancer type is small. Experimental results from both our simulated and NGS datasets from The Cancer Genome Atlas (TCGA) demonstrate the promising potential of BMDL for effective multi-domain learning without "negative transfer" effects often seen in existing multi-task learning and transfer learning methods.

研究の動機と目的

希少または未だ十分に研究されていないがん種において、特にサンプル数が限られているがんサブタイピングの課題に対処すること。
ドメイン同士が弱く関連している場合でも、負の転送を回避しながら複数のがん種（ドメイン）のデータを効果的に統合する手法を開発すること。
過分散カウントデータから低次元でドメイン適応型の潜在表現を導出し、頑健かつ再現性のあるがんサブタイピングを可能にすること。
データ駆動による潜在要因の選択を通じて、ドメインの関連性と要因の共有を自動的に推定する生成的で教師なしのフレームワークを提供すること。

提案手法

BMDLは、過分散をモデル化するためのネガティブバイノミアル尤度を用いて、NGSカウントデータをドメイン固有およびグローバルに共有される潜在要因に因子分解する階層ベイジアンモデルを採用する。
潜在バイナリセレクタ変数を導入し、ベータ・ベルヌーイ過程の事前分布を用いることで、潜在要因を個々のドメインにスパースかつデータ駆動的に割り当て、要因の柔軟な共有または分離を可能にする。
潜在要因およびハイパーパrameterの事後分布からの効率的なサンプリングを実現するため、ガンマ過程に基づく新しいデータ拡張スキームを提案する。
モデルはドメイン数に制限なく複数のドメインをサポートし、任意の数のソースドメインおよびターゲットドメインにおける統合学習を可能にする。
潜在要因の豊富さはガンマ過程によって独立にモデル化され、ディリクレ過程ベースのモデルが課す負の相関制約を回避する。
得られる低次元表現は、任意の下流の教師ありまたは教師なしサブタイピングモデルに利用可能である。

実験結果

リサーチクエスチョン

RQ1ターゲットドメインに非常に少ないサンプルしか存在しない状況において、ベイジアンマルチドメイン学習フレームワークががんサブタイピングの精度を効果的に向上させることができるか？
RQ2潜在要因をドメイン間で適応的に共有または分離することで、マルチドメイン学習における負の転送を回避する方法は何か？
RQ3提案手法は、ドメイン同士の関連性の程度が異なるNGSカウントデータに対して、既存の転送学習およびマルチタスク学習手法をどの程度上回るか？
RQ4共有潜在要因の数を、原理的かつデータ駆動的にドメイン関連性を測る信頼性のある指標として用いることができるか？

主な発見

BMDLは、ガンマ過程による潜在要因の豊富さの優れたモデリングのおかげで、HDPベースの手法に比べ最大16%の高いサブタイピング精度を達成した。
100個の関連性の高いソースサンプルを用いた場合、BMDLはベースライン手法に比べターゲットドメインのサブタイピング精度を最大8%向上させた。
関連性が低いソースドメインであっても、BMDLは負の転送を回避し、ベースラインより最大5%の性能向上を維持・達成した。
3つのドメイン（ソース2つ、ターゲット1つ）を用い、各ドメインに100サンプルを割り当てた場合、1つのソースドメインに25サンプルを割り当てる場合に比べ、精度が1%向上した。
関連性が低いドメインに100サンプルの関連性の高いソースドメインを追加した場合、精度は約4%向上した。これは、ドメインの不均一性に対しても頑健であることを示している。
ドメイン同士がわずかにしか関連していない場合でも、データ駆動による要因の割り当てを通じてドメイン関連性を学習することで、BMDLは負の転送を効果的に回避した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。