QUICK REVIEW

[논문 리뷰] Protein Secondary Structure Prediction with Long Short Term Memory Networks

Søren Kaae Sønderby, Ole Winther|arXiv (Cornell University)|2014. 12. 25.

Machine Learning in Bioinformatics참고 문헌 18인용 수 102

한 줄 요약

이 논문은 단백질 2차 구조 예측을 위한 양방향 Long Short-Term Memory (LSTM) 순환 신경망을 제안하며, LSTM 레이어 간 및 정방향 및 역방향 상태의 출력 병합 부분에 피드포워드 네트워크를 통합한다. 이 모델은 CB513 벤치마크에서 기존의 GSN 및 CNF 모델을 포함한 이전 방법들을 능가하는 최신 기술 수준의 Q8 정확도 0.674를 달 đạt한다.

ABSTRACT

Prediction of protein secondary structure from the amino acid sequence is a classical bioinformatics problem. Common methods use feed forward neural networks or SVMs combined with a sliding window, as these models does not naturally handle sequential data. Recurrent neural networks are an generalization of the feed forward neural network that naturally handle sequential data. We use a bidirectional recurrent neural network with long short term memory cells for prediction of secondary structure and evaluate using the CB513 dataset. On the secondary structure 8-class problem we report better performance (0.674) than state of the art (0.664). Our model includes feed forward networks between the long short term memory cells, a path that can be further explored.

연구 동기 및 목표

순차적 아미노산 데이터에 대한 딥러닝을 활용하여 단백질 2차 구조 예측 정확도를 향상시키기 위해.
기존의 피드포워드 네트워크와 SVM이 단백질 서열에서 장거리 의존성을 모델링할 수 없는 한계를 해결하기 위해.
특히 양방향 LSTM을 활용하여 단백질 서열의 양방향에서의 맥락을 포착할 수 있는 순차적 모델링 능력을 활용하기 위해.
더 나은 특징 융합을 위해 반복 아키텍처 내부와 출력 레이어에 피드포워드 네트워크를 통합하여 성능을 향상시키기 위해.
8개 클래스의 2차 구조 예측 작업에 대해 CB513 데이터셋에서 새로운 최신 기술 수준의 성능을 확립하기 위해.

제안 방법

정방향 및 역방향 RNN이 아미노산 서열을 양방향으로 처리하는 양방향 LSTM 아키텍처를 사용한다.
표현을 개선하기 위해 LSTM 은닉 상태 사이에 피드포워드 신경망을 도입하며, 잔차 유사 스킵 연결을 적용한다.
정방향 및 역방향 LSTM 네트워크의 출력을 병합하고 정규화한 후 최종 분류를 위해 또 다른 피드포워드 네트워크를 적용한다.
PSI-BLAST에서 유도된 시퀀스 프로파일 특징과 함께 one-hot 아미노산 표현을 조합한 42차원 입력 인코딩을 사용한다.
L2 노름이 0.5를 초과할 경우 기울기 클리핑을 적용하고 AdaDelta 최적화를 사용하여 모델을 훈련시키며, 병합 네트워크에 50% 드롭아웃을 적용하여 정규화를 수행한다.
3층의 LSTM을 사용하며, 각 레이어에 300 또는 500개의 유닛을 할당하고, 특징 융합 및 예측을 위해 ReLU 활성화 함수를 사용하는 완전 연결 피드포워드 레이어를 적용한다.

실험 결과

연구 질문

RQ1내부에 피드포워드 네트워크를 통합한 양방향 LSTM 아키텍처가 기존 최신 기술 수준의 모델보다 단백질 2차 구조 예측에서 더 우수한 성능을 낼 수 있는가?
RQ2LSTM 레이어 간에 피드포워드 네트워크를 통합함으로써 표현 학습과 예측 정확도가 향상되는가?
RQ3LSTM이 표준 RNN의 한계를 넘어서 단백질 서열에서 장거리 의존성을 효과적으로 모델링할 수 있는가?
RQ4CB513 벤치마크에서 제안된 아키텍처가 생성적 스트로스틱 네트워크와 조건부 신경 필드에 비해 어떻게 비교되는가?
RQ5양방향 맥락과 잔차 스타일 연결을 사용함으로써 Q8 정확도에 측정 가능한 향상이 이루어지는가?

주요 결과

제안된 LSTM 모델은 CB513 테스트 세트에서 Q8 정확도 0.674를 달성하여 새로운 최신 기술 수준의 성능을 확립하였다.
이전 최신 기술 수준의 방법인 생성적 스트로스틱 네트워크(GSN)가 달성한 0.664 정확도를 초월하였다.
SSpro8에서 보고된 양방향 RNN(BRNN) 기반 베이스라인의 정확도 0.511을 크게 상회하였다.
조건부 신경 필드(CNF) 앙상블 방법은 0.649의 정확도를 기록하였으며, 이는 제안된 모델이 뚜렷한 향상을 이룬다는 것을 보여준다.
LSTM 레이어 간 및 출력 병합 단계에 피드포워드 네트워크를 통합함으로써 표준 양방향 LSTM 아키텍처에 비해 성능 향상이 이루어졌다.
모델의 성능는 모든 2차 구조 클래스에서 뛰어나며, 빈도가 높은 클래스(H 및 E)에서 높은 예측 정확도를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.