QUICK REVIEW

[논문 리뷰] Comparing two deep learning sequence-based models for protein-protein interaction prediction

Florian Richoux, Charlène Servantie|arXiv (Cornell University)|2019. 01. 15.

Bioinformatics and Genomic Networks참고 문헌 21인용 수 25

한 줄 요약

이 논문은 과도한 피팅과 정보 泄露를 철저히 방지하면서 단백질 서열을 기반으로 인간의 단백질-단백질 상호작용(PPI)을 높은 정확도로 예측하기 위해 퍼셉트론 연결망과 순환 신경망을 비교한다. 최고의 모델은 훈련 또는 검증 세트에 어떤 단백질도 등장하지 않는 엄격한 테스트 세트에서 78.33%의 정확도를 기록하여 강력한 일반화 능력과 확장 가능성 잠재력을 입증한다.

ABSTRACT

Biological data are extremely diverse, complex but also quite sparse. The recent developments in deep learning methods are offering new possibilities for the analysis of complex data. However, it is easy to be get a deep learning model that seems to have good results but is in fact either overfitting the training data or the validation data. In particular, the fact to overfit the validation data, called "information leak", is almost never treated in papers proposing deep learning models to predict protein-protein interactions (PPI). In this work, we compare two carefully designed deep learning models and show pitfalls to avoid while predicting PPIs through machine learning methods. Our best model predicts accurately more than 78% of human PPI, in very strict conditions both for training and testing. The methodology we propose here allow us to have strong confidences about the ability of a model to scale up on larger datasets. This would allow sharper models when larger datasets would be available, rather than current models prone to information leaks. Our solid methodological foundations shall be applicable to more organisms and whole proteome networks predictions.

연구 동기 및 목표

강력한 일반화 보장을 갖춘 시퀀스 기반 단백질-단백질 상호작용(PPI) 예측을 위한 두 가지 딥러닝 모델의 개발 및 비교.
단백질이 세트 간에 재사용되지 않는 엄격히 분리된 훈련, 검증, 테스트 세트를 사용하여 과도한 피팅과 정보 泄露를 방지.
더 큰 데이터셋과 다른 생물에 적용 가능한 강력하고 재현 가능한 PPI 예측 방법론을 확립.
데이터 유출이나 열악한 데이터셋 분할로 인한 편향이 없는 조건에서 모델 성능을 평가하여 결과의 신뢰성을 확보.
향후 인터페이스 수준의 PPI 예측 및 전체 단백질체 네트워크 모델링 작업의 기초를 마련.

제안 방법

유니프로트(UNIPROT) 인간 PPI 애너테이션에서 데이터셋을 구성하였으며, 양성 및 음성 쌍이 균형 잡혀 있고, 1166개 이하 아미노산을 가진 단백질만 포함하도록 필터링하였다.
표준 분할 방식을 사용해 각각 50%의 양성 및 음성 샘플을 포함하는 정규 훈련, 검증, 테스트 세트를 생성하였다.
단백질이 전체 데이터셋에서 최대 두 번만 나타나는 단백질 쌍을 분리하여, 훈련, 검증, 테스트 세트 간에 단백질 겹침이 없도록 더 엄격한 분할을 수행하였다.
두 가지 딥러닝 모델을 훈련: 완전 연결망과 순환 신경망(LSTM 기반), 모두 원시 아미노산 서열을 입력으로 사용.
하이퍼파ram터 튜닝은 훈련 세트와 검증 세트 간의 정보 유출을 방지하기 위해 히든 셋 검증 세트에서만 수행되었으며, 최종 평가는 엄격한 히든 셋 테스트 세트에서 이루어져 정보 유출을 방지하였다.
수작업 특징을 사용하지 않고 시퀀스 임베딩에서부터 엔드 투 엔드로 훈련하여 딥러닝이 복잡한 패턴을 자동으로 추출할 수 있는 능력을 활용하였다.

실험 결과

연구 질문

RQ1엄격한 평가 프로토콜에서 과도한 피팅과 정보 泄露를 방지하면서도 딥러닝 모델이 높은 정확도로 PPI 예측을 수행할 수 있는가?
RQ2완전 연결망과 순환 신경망 아키텍처가 시퀀스 기반 PPI 예측에서 성능 및 강건성 측면에서 어떻게 비교되는가?
RQ3훈련, 검증, 테스트 세트 간에 단백질 겹침이 없는 것이 모델의 일반화 능력과 신뢰성에 얼마나 기여하는가?
RQ4데이터 유출을 방지하는 방법론이 향후 더 큰 데이터셋에 대해 확장 가능한 PPI 예측을 가능하게 할 수 있는가?
RQ5단백질 재사용이 없는 히든 셋 테스트 세트를 사용할 경우 모델 평가의 정확도와 신뢰도에 어떤 영향을 미치는가?

주요 결과

순환 모델은 훈련 또는 검증 세트에 어떤 단백질도 등장하지 않는 엄격한 히든 셋 테스트 세트에서 78.33%의 정확도를 기록하여 강력한 일반화 능력을 입증하였다.
완전 연결 모델은 동일한 엄격한 테스트 세트에서 76.25%의 정확도를 기록하여 아키텍처 간 일관된 성능을 보였다.
엄격한 평가 프로토콜은 정보 유출을 성공적으로 방지하였으며, 이는 기존에 노출된 바가 없는 단백질 쌍에 대해 높은 성능을 기록함으로써 입증되었다.
본 연구는 기존의 많은 PPI 예측 방법론이 데이터 유출과 열악한 검증 관행으로 인해 모델 신뢰성을 떨어뜨린다는 점을 부각시켰다.
이 방법론은 세포소기관 분포나 반복적인 단백질 노출로 인한 편향을 방지하여 생물학적 해석 가능성 향상에 기여한다.
저자들은 재현 가능성을 높이기 위해 전체 코드, 데이터, 실험 설정을 공개하여 향후 벤치마킹 및 다른 생물에 대한 확장에 기여하고 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.