QUICK REVIEW

[논문 리뷰] Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data

Ehsan Hajiramezanali, Siamak Zamani Dadaneh|arXiv (Cornell University)|2018. 10. 22.

Gene expression and cancer classification인용 수 32

한 줄 요약

이 논문은 다수의 암 유형 간 과분산된 NGS 카운트 데이터로부터 공유 요인과 도메인 특화 잠재 요인을 학습하는 계층적 음이항 분해 모델인 베이지안 다중도메 학습(BMDL)을 제안한다. 베타-베르누이 프로세스 사전분포를 사용하여 잠재 요인을 도메인에 적응적으로 할당함으로써 BMDL은 소수의 샘플을 가진 타겟 도메인에서도 강건하고 부정 전이가 없는 서브타이핑을 가능하게 하며, HDP 기반 방법 대비 최대 16%의 정확도 향상과 매우 관련성이 높은 소스 데이터에서는 8% 향상을 달성한다.

ABSTRACT

Precision medicine aims for personalized prognosis and therapeutics by utilizing recent genome-scale high-throughput profiling techniques, including next-generation sequencing (NGS). However, translating NGS data faces several challenges. First, NGS count data are often overdispersed, requiring appropriate modeling. Second, compared to the number of involved molecules and system complexity, the number of available samples for studying complex disease, such as cancer, is often limited, especially considering disease heterogeneity. The key question is whether we may integrate available data from all different sources or domains to achieve reproducible disease prognosis based on NGS count data. In this paper, we develop a Bayesian Multi-Domain Learning (BMDL) model that derives domain-dependent latent representations of overdispersed count data based on hierarchical negative binomial factorization for accurate cancer subtyping even if the number of samples for a specific cancer type is small. Experimental results from both our simulated and NGS datasets from The Cancer Genome Atlas (TCGA) demonstrate the promising potential of BMDL for effective multi-domain learning without "negative transfer" effects often seen in existing multi-task learning and transfer learning methods.

연구 동기 및 목표

희귀하거나 연구가 부족한 암 유형의 경우 샘플 수가 매우 적은 문제를 해결하기 위해 NGS 카운트 데이터로부터의 암 서브타이핑에 도전한다.
도메인이 약간만 관련되어 있어도, 여러 암 유형(도메인)의 데이터를 부정 전이 없이 효과적으로 통합할 수 있는 방법을 개발한다.
과분산된 카운트 데이터로부터 유도된 저차원의 도메인 적응형 잠재 표현을 사용하여 강건하고 재현 가능한 암 서브타이핑을 가능하게 한다.
데이터 기반의 잠재 요인 선택을 통해 도메인 관련성과 요인 공유를 자동으로 추론하는 생성적 비지도 프레임워크를 제공한다.

제안 방법

BMDL은 과분산을 모델링하기 위해 음이항 분포 가능도를 사용하여 NGS 카운트 데이터를 도메인 특화 및 전역적으로 공유되는 잠재 요인으로 분해하는 계층적 베이지안 모델을 활용한다.
잠재 요인을 개별 도메인에 효율적으로 할당하기 위해 베타-베르누이 프로세스 사전분포를 갖는 잠재 이진 선택 변수를 도입함으로써, 요인의 탄력적 공유 또는 고립을 가능하게 한다.
잠재 요인과 초모수의 사후분포에서 효율적으로 샘플링하기 위해 감마 프로세스 기반의 새로운 데이터 증강 기법을 사용한다.
모델은 도메인 수에 제한 없이 다수의 도메인을 지원하며, 임의의 수의 소스 및 타겟 도메인 간 공동 학습을 가능하게 한다.
잠재 요인의 풍부도는 딜리클리트 프로세스 기반 모델의 부정적 상관관계 제약을 피하기 위해 감마 프로세스를 통해 독립적으로 모델링한다.
결과적으로 유도된 저차원 표현은 임의의 후행 지도 또는 비지도 서브타이핑 모델에 사용될 수 있다.

실험 결과

연구 질문

RQ1타겟 도메인이 매우 적은 샘플을 가진 경우, 베이지안 다중도메 학습 프레임워크가 암 서브타이핑 정확도를 효과적으로 향상시킬 수 있는가?
RQ2잠재 요인을 도메인 간에 적응적으로 공유하거나 고립함으로써 다중도메 학습에서의 부정 전이를 어떻게 방지할 수 있는가?
RQ3제안된 모델은 도메인 관련성의 정도가 다양한 NGS 카운트 데이터에서 기존의 전이 및 다중작업 학습 방법보다 얼마나 뛰어나게 성능을 발휘하는가?
RQ4공유 잠재 요인의 수가 원칙적이고 데이터 기반의 방식으로 도메인 관련성의 신뢰할 수 있는 측정 기준이 될 수 있는가?

주요 결과

BMDL은 감마 프로세스를 통한 잠재 요인 풍부도의 우수한 모델링 덕분에 HDP 기반 방법 대비 최대 16% 높은 서브타이핑 정확도를 달성한다.
100개의 매우 관련성이 높은 소스 샘플이 있는 경우, BMDL은 기준 방법 대비 타겟 도메인 서브타이핑 정확도를 최대 8% 향상시킨다.
낮은 관련성의 소스 도메인을 가진 경우에도 BMDL은 부정 전이 없이 성능을 유지하거나 향상시키며, 기준 방법 대비 최대 5%의 일관된 향상을 보인다.
각 도메인에 100개의 샘플이 있는 3개의 도메인(소스 2개, 타겟 1개)을 사용할 경우, 단일 소스 도메인(25개 샘플) 대비 정확도가 1% 향상된다.
100개의 샘플이 있는 낮은 관련성의 도메인에 100개의 매우 관련성이 높은 소스 도메인을 추가하면 정확도가 약 4% 향상되며, 이는 도메인 이질성에 대한 강건성을 보여준다.
도메인이 먼 관련성을 가진 경우조차도 데이터 기반의 요인 할당을 통해 도메인 관련성을 학습함으로써 부정 전이를 성공적으로 방지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.