[논문 리뷰] Protein Secondary Structure Prediction Using Deep Multi-scale Convolutional Neural Networks and Next-Step Conditioning
이 논문은 잔차 연결과 다음 단계 조건부 조건을 갖춘 딥 다중 스케일 컨볼루션 신경망을 제안하여 단일 모델을 사용할 때 CB513에서 70.0%의 Q8 정확도를 달성하고, 조건부 모델과의 앙상블을 통해 70.6%의 정확도를 달성한다. 이 방법은 현대 딥 러닝 기법과 새로운 앙상블 전략을 활용하여 조건부 예측에서의 과적합을 완화함으로써 이전 최고 성능을 초월한다.
Recently developed deep learning techniques have significantly improved the accuracy of various speech and image recognition systems. In this paper we adapt some of these techniques for protein secondary structure prediction. We first train a series of deep neural networks to predict eight-class secondary structure labels given a protein's amino acid sequence information and find that using recent methods for regularization, such as dropout and weight-norm constraining, leads to measurable gains in accuracy. We then adapt recent convolutional neural network architectures--Inception, ReSNet, and DenseNet with Batch Normalization--to the problem of protein structure prediction. These convolutional architectures make heavy use of multi-scale filter layers that simultaneously compute features on several scales, and use residual connections to prevent underfitting. Using a carefully modified version of these architectures, we achieve state-of-the-art performance of 70.0% per amino acid accuracy on the public CB513 benchmark dataset. Finally, we explore additions from sequence-to-sequence learning, altering the model to make its predictions conditioned on both the protein's amino acid sequence and its past secondary structure labels. We introduce a new method of ensembling such a conditional model with our convolutional model, an approach which reaches 70.6% Q8 accuracy on CB513. We argue that these results can be further refined for larger boosts in prediction accuracy through more sophisticated attempts to control overfitting of conditional models. We aim to release the code for these experiments as part of the TensorFlow repository.
연구 동기 및 목표
- 이미지 인식에서 유래한 현대 딥 러닝 아키텍처를 단백질 서열 데이터에 적응시켜 단백질 이차 구조 예측 정확도를 향상시키는 것.
- 다중 스케일 컨볼루션 레이어와 잔차 연결이 이차 구조 예측에 미치는 영향을 조사하는 것.
- 과거의 이차 구조 레이블에 기반한 시퀀스-투-시퀀스 조건부 조건을 도입하여 예측 정확도를 향상시키는 것.
- 무조건적 컨볼루션 모델과의 새로운 앙상블 전략을 통해 조건부 모델의 과적합 문제를 완화하는 것.
- 단일 모델과 앙상블 방법을 사용하여 CB513 벤치마크 데이터셋에서 새로운 최고 성능 기록을 수립하는 것.
제안 방법
- 배치 정규화와 다중 스케일 필터를 적용한 인셉션, 리스넷, 덴스넷 아키텍처를 단백질 서열 데이터에 적응시킨 딥 컨볼루션 신경망 아키텍처를 적용한다.
- 드롭아웃과 가중치 노름 제약과 같은 정규화 기법을 적용하여 일반화 성능을 향상시키고 과적합을 줄인다.
- 잔차 연결을 도입하여 국소 서열 컨텍스트를 유지하고 레이어 간 정보 손실을 방지한다.
- 이미지 인식에서 유래한 시퀀스-투-시퀀스 학습의 영감을 받아, 아미노산 서열과 이전에 예측된 레이블에 기반한 조건부 모델을 설계한다.
- 무조건적 CNN과 조건부 모델의 예측을 조합하는 가중치가 부여된 빔 서치 앙상블 방법을 사용하여 오류 전파를 줄인다.
- PSI-BLAST에서 유도된 정규화된 PSSM 프로파일과 원-핫 인코딩을 조합한 42차원 입력 표현을 사용한다.
실험 결과
연구 질문
- RQ1이미지 인식에서 유래한 현대 딥 컨볼루션 아키텍처가 단백질 이차 구조 예측에 효과적으로 적용될 수 있는가?
- RQ2다중 스케일 컨볼루션 레이어와 잔차 연결은 여덟 클래스의 이차 구조 문제에서 성능을 어떻게 향상시키는가?
- RQ3과거의 이차 구조 레이블에 기반한 미래 예측의 조건부 조건이 단백질 구조 예측의 정확도 향상에 측정 가능한 기여를 하는가?
- RQ4조건부 모델에서의 과적합은 얼마나 심각한 영향을 미치며, 앙상블 학습을 통해 이를 완화할 수 있는가?
- RQ5앙상블 또는 다중 작업 학습 없이도 단일 모델이 최고 성능을 달성할 수 있는가?
주요 결과
- 제안된 다중 스케일 잔차 컨볼루션 네트워크는 CB513 벤치마크에서 70.0%의 Q8 정확도를 달성하여 이전 최고 성능을 0.3% 초월한다.
- 잔차 연결을 추가함으로써 단순히 더 많은 컨볼루션 블록을 추가하는 것보다 더 큰 정확도 향상을 기록하며, 이는 정보 유지 능력 향상을 시사한다.
- 조건부 모델은 지도 학습 시 기준 컨텍스트를 제공받아 검증 세트에서 81.7%의 다음 단계 정확도를 기록하지만, 빔 서치를 사용한 테스트 세트에서는 67.1%로 급격히 떨어지며 과적합이 심각한 것으로 나타난다.
- 조건부 모델을 무조건적 CNN과 앙상블함으로써 테스트 정확도가 70.6%로 향상되었으며, 이는 이전 최고 기록 대비 0.9%의 상대적 향상이다.
- 두 개의 무조건적 모델을 단순히 앙상블하는 것(70.4% 대비 70.6%)보다 앙상블 방법이 더 우수한 성능을 보이며, 과적합이 있음에도 불구하고 조건부 조건의 이점이 명확히 드러난다.
- 결과적으로 조건부 모델의 과적합은 주로 이전 레이블을 그대로 복사하려는 경향 때문이며, 전략적 앙상블 가중치 부여를 통해 이를 효과적으로 완화할 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.