Skip to main content
QUICK REVIEW

[논문 리뷰] Biological Profiling of Gene Groups utilizing Gene Ontology

Nils Blüthgen, Karsten Brand|PubMed|2004. 07. 26.
Bioinformatics and Genomic Networks참고 문헌 19인용 수 202
한 줄 요약

이 논문은 고 throughput 실험에서 유전자 집단의 생물학적으로 의미 있는 유전자 온톨로지(GO) 용어를 식별하기 위해 분석적 가짜 발현률(FDR) 보정을 사용하는 통계적 프레임워크인 GOSSIP을 제시한다. 조정된 p-값을 정밀하게 계산함으로써, 재표본 추출과 표준 다중 검정 보정 방법에 비해 민감도와 계산 효율성을 향상시켜 가짜 양성 결과가 최소화된 강력하고 자동화된 유전자 목록 생물학적 프로파일링을 가능하게 한다.

ABSTRACT

Increasingly used high throughput experimental techniques, like DNA or protein microarrays give as a result groups of interesting, e.g. differentially regulated genes which require further biological interpretation. With the systematic functional annotation provided by the Gene Ontology the information required to automate the interpretation task is now accessible. However, the determination of statistical significance of a biological process within these groups is still an open question. In answering this question, multiple testing issues must be taken into account to avoid misleading results. Here we present a statistical framework that tests whether functions, processes or locations described in the Gene Ontology are significantly enriched within a group of interesting genes when compared to a reference group. First we define an exact analytical expression for the expected number of false positives that allows us to calculate adjusted p-values to control the false discovery rate. Next, we demonstrate and discuss the capabilities of our approach using publicly available microarray data on cell-cycle regulated genes. Further, we analyze the robustness of our framework with respect to the exact gene group composition and compare the performance with earlier approaches. The software package GOSSIP implements our method and is made freely available at http://gossip.gene-groups.net/.

연구 동기 및 목표

  • 고 throughput 유전자 집단 연구에서 다중 검정으로 인한 가짜 양성 결과 문제를 해결하기 위해.
  • GO 용어의 유의성에 대한 재표본 추출 기반 다중 검정 보정의 계산 효율성이 떨어지는 대안을 개발하기 위해.
  • GO 프로파일링에서 가짜 발현률(FDR)을 제어하는 신뢰할 수 있는 분석적 방법으로 조정된 p-값을 계산하기 위해.
  • 랜덤 유전자 추가와 같은 다양한 유전자 집단 구성 조건 하에서 방법의 강건성을 평가하기 위해.
  • 단일 유전자 분석을 넘어서 정확하고 자동화된 생물학적 해석을 가능하게 하기 위해.

제안 방법

  • 모든 테스트된 GO 용어에 걸쳐 가짜 양성의 기대 수를 정확히 계산할 수 있는 정확한 분석적 표현을 사용하여 정밀한 FDR 제어를 가능하게 한다.
  • 각 GO 용어에 대해, 테스트 집단과 기준 집단의 유전자 수를 비교하기 위한 2×2 교차표를 구성하며, 이는 용어에 대한 애너테이션을 포함한다.
  • 재표본 추출의 계산 부담을 피하면서도 높은 정확도를 유지하는 분석적 FDR 접근법을 사용하여 조정된 p-값을 계산한다.
  • 유전자 온톨로지의 계층적 구조(DAG)를 고려하기 위해 부모 용어를 통한 암시적 애너테이션을 고려한다.
  • 이 방법은 오픈소스 소프트웨어 패키지 GOSSIP을 통해 구현되었으며, http://gossip.gene-groups.net/ 에서 이용할 수 있다.
  • 강건성을 평가하기 위해 반복적으로 테스트 집단에 랜덤 유전자를 추가하고 시뮬레이션 동안 용어의 지속성을 모니터링한다.

실험 결과

연구 질문

  • RQ1재표본 추출에 비해 분석적 방법이 GO 부여 분석에서 더 정확하고 빠른 FDR 보정을 제공할 수 있는가?
  • RQ2랜덤 유전자를 테스트 집단에 추가했을 때, 방법의 성능은 집단 구성에 대한 민감도를 어떻게 보여주는가?
  • RQ3Benjamini-Hochberg 및 Benjamini-Yekutieli와 같은 표준 다중 검정 보정 방법에 비해 이 방법은 통계적 검정력과 정밀도 측면에서 뛰어나다고 할 수 있는가?
  • RQ4이 프레임워크는 관련 없는 또는 허위 연관성을 보고하지 않고도 기능적으로 관련 있는 GO 용어를 신뢰성 있게 식별할 수 있는가?
  • RQ5유전자 목록에 노이즈나 교란이 가해졌을 때, 이 방법은 높이 유의미한 용어의 탐지 능력을 어느 정도 유지하는가?

주요 결과

  • GOSSIP의 분석적 FDR 보정은 재표본 추출 시뮬레이션과 동일한 신뢰성 있는 조정된 p-값을 생성하지만, 수 시간이 소요되는 것에 비해 단 몇 초 만에 처리된다.
  • 이 방법에서 계산된 조정된 p-값은 단일 검정 p-값과 비교해 10,000배 이상의 차이를 보일 수 있어, 적절한 다중 검정 보정의 필수성을 강조한다.
  • Benjamini-Yekutieli 방법은 지나치게 보수적이었으며, 필요 이상으로 2~6배 높은 조정된 p-값을 제공해 통계적 검정력을 감소시켰다.
  • Benjamini-Hochberg 추정은 FDR 제어 성능이 열악하여 이 특정 응용 분야에 있어서 신뢰할 수 없다고 판단되었다.
  • 매우 높은 유의미성을 보이는 GO 용어(예: DNA 대사, FDR = 5.2×10⁻⁸)는 500개의 랜덤 유전자 추가 후에도 99%의 경우에 검출되어 강력한 강건성을 입증했다.
  • 중간 수준의 용어(예: 뉴클레오솜 조립, FDR = 0.0091)는 100개의 랜덤 유전자 추가 후에도 거의 모든 경우에 검출되어 방법의 안정성을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.