QUICK REVIEW

[논문 리뷰] Effectively integrating information content and structural relationship to improve the GO-based similarity measure between proteins

Bo Li, James Z. Wang|arXiv (Cornell University)|2010. 01. 06.

Bioinformatics and Genomic Networks참고 문헌 31인용 수 49

한 줄 요약

이 논문은 단백질 유사도를 향상시키기 위해 유전자 온톨로지(Gene Ontology, GO) 용어의 정보량(Information Content, IC)과 계층적 구조적 관계를 통합하는 새로운 단백질 유사도 측정법인 SimIC를 제안한다. 얕은 애너테이션 편향을 보정함으로써, 발현 유사도 및 서열 유사도와의 상관관계를 크게 향상시키며, 효모에서 20,484개의 효모 단백질-단백질 상호작용(PPI)을 예측하고, 214개의 MIPS 복합체 중 159개를 완전히 복원하며 기존 방법들을 능가한다.

ABSTRACT

The Gene Ontology (GO) provides a knowledge base to effectively describe proteins. However, measuring similarity between proteins based on GO remains a challenge. In this paper, we propose a new similarity measure, information coefficient similarity measure (SimIC), to effectively integrate both the information content (IC) of GO terms and the structural information of GO hierarchy to determine the similarity between proteins. Testing on yeast proteins, our results show that SimIC efficiently addresses the shallow annotation issue in GO, thus improves the correlations between GO similarities of yeast proteins and their expression similarities as well as between GO similarities of yeast proteins and their sequence similarities. Furthermore, we demonstrate that the proposed SimIC is superior in predicting yeast protein interactions. We predict 20484 yeast protein-protein interactions (PPIs) between 2462 proteins based on the high SimIC values of biological process (BP) and cellular component (CC). Examining the 214 MIPS complexes in our predicted PPIs shows that all members of 159 MIPS complexes can be found in our PPI predictions, which is more than those (120/214) found in PPIs predicted by relative specificity similarity (RSS). Integrating IC and structural information of GO hierarchy can improve the effectiveness of the semantic similarity measure of GO terms. The new SimIC can effectively correct the effect of shallow annotation, and then provide an effective way to measure similarity between proteins based on Gene Ontology.

연구 동기 및 목표

유전자 온톨로지(Gene Ontology, GO) 용어를 사용한 단백질 유사도 측정 과제를 해결하기 위해, 특히 얕은 애너테이션 상황에서의 과제를 다루는 것.
낮은 커버리지, 고수준의 GO 용어가 유사도 점수를 지배함으로써 발생하는 편향을 보정하는 것.
GO 기반 유사도와 발현 및 서열 유사도와 같은 생물학적 증거 간의 상관관계를 향상시키는 것.
정성 유사도를 활용하여 단백질-단백질 상호작용(PPI)의 예측 정확도를 향상시키는 것.
GO 그래프 내 정보량(IC)과 구조적 계층 구조를 모두 활용하는 강력한 통합 유사도 측정법을 개발하는 것.

제안 방법

모든 GO 용어에 대해 애너테이션 코퍼스에서의 빈도를 기반으로 정보량(IC)을 계산하며, 공식 IC(t) = -log(p(t))를 사용한다. 여기서 p(t)는 용어 t의 확률이다.
GO의 계층적 구조를 통합하기 위해 자식 용어에서 부모 용어로 IC 값을 전파함으로써, 고수준 용어가 자식 용어들로부터 특이성을 상속하도록 한다.
새로운 유사도 측정법인 SimIC는 IC와 구조적 관계로 가중된 GO 용어의 교집합에 대해 자카르 유사도 유사 계수로 정의된다.
두 단백질 간의 유사도는 그들의 GO 애너테이션에 포함된 가능한 모든 용어 쌍에 대해 가중 자카르 유사도의 최댓값으로 계산된다.
이 방법은 과도하게 일반화된 고수준 용어를 경고하고, 구체적이고 잘 애너테이션된 용어를 우선시하도록 유사도 점수를 동적으로 조정한다.
이 방법은 발현 데이터, 서열 데이터, 알려진 단백질 복합체(MIPS)를 사용하여 효모(Saccharomyces cerevisiae) 단백질에서 검증된다.

실험 결과

연구 질문

RQ1GO 온톨로지 내 정보량과 구조적 계층 구조를 통합하면 단백질 유사도 측정이 향상되는가?
RQ2기존 방법들과 비교해 SimIC는 단백질-단백질 상호작용을 예측하는 데 어떻게 성능을 발휘하는가? 예를 들어 상대적 특이성 유사도(Relative Specificity Similarity, RSS)와 비교해 본다.
RQ3SimIC는 발현 및 서열 유사도와 같은 생물학적 유사도 지표와의 상관관계를 어느 정도 향상시키는가?
RQ4SimIC는 GO에서 많은 단백질이 광범위한 고수준 용어에 애너테이션된 얕은 애너테이션의 영향을 효과적으로 완화할 수 있는가?
RQ5기존의 다른 유사도 측정법과 비교해 SimIC는 알려진 단백질 복합체를 어느 정도 잘 복원하는가?

주요 결과

SimIC는 효모에서 GO 유사도와 단백질 발현 유사도 간의 상관관계를 크게 향상시켜 기준 방법들을 능가한다.
SimIC는 GO 유사도와 서열 유사도 간의 상관관계도 향상시켜 더 높은 생물학적 관련성을 나타낸다.
이 방법은 생물학적 과정 및 세포 부위 용어에 대해 높은 SimIC 점수를 기반으로 2,462개의 효모 단백질 간에 20,484개의 단백질-단백질 상호작용(PPI)을 예측한다.
214개의 알려진 MIPS 복합체 중 159개가 예측된 PPI 네트워크에서 완전히 복원되었으며, RSS 방법은 120개만 복원하였다.
결과는 정보량(IC)과 구조적 계층 구조를 통합함으로써 얕은 애너테이션 편향을 효과적으로 보정하고, 단백질 기능 예측에서 정성 유사도의 정확도를 향상시킬 수 있음을 보여준다.
SimIC는 기존 접근법보다 더 강력하고 생물학적으로 의미 있는 단백질 유사도 측정법을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.