Skip to main content
QUICK REVIEW

[논문 리뷰] RNA Secondary Structure Prediction By Learning Unrolled Algorithms

Xinshi Chen, Yu Li|arXiv (Cornell University)|2020. 02. 13.
RNA and protein synthesis mechanisms참고 문헌 31인용 수 37
한 줄 요약

E2Efold는 hard structural constraints를 내장한 unrolled constrained-optimization post-processing network를 통해 엔드-투-엔드로 RNA 염기쌍 매트릭스를 예측하도록 학습하며, 특히 퍼시코트에 대해 우수한 정확도와 경쟁력 있는 추론 속도를 달성합니다.

ABSTRACT

In this paper, we propose an end-to-end deep learning model, called E2Efold, for RNA secondary structure prediction which can effectively take into account the inherent constraints in the problem. The key idea of E2Efold is to directly predict the RNA base-pairing matrix, and use an unrolled algorithm for constrained programming as the template for deep architectures to enforce constraints. With comprehensive experiments on benchmark datasets, we demonstrate the superior performance of E2Efold: it predicts significantly better structures compared to previous SOTA (especially for pseudoknotted structures), while being as efficient as the fastest algorithms in terms of inference time.

연구 동기 및 목표

  • 엄격한 구조 제약을 존중하면서 RNA 이차구조 예측에 대한 엔드투엔드 학습을 촉진한다.
  • 중첩 구조의 한계를 피하기 위해 직접 염기쌍 매트릭스를 예측하고 언롤된 후처리 알고리즘을 통해 제약을 적용한다.
  • 트랜스포머 기반의 Deep Score Network과 차별 가능 한 Post-Processing Network를 함께 학습하도록 연결한다.
  • 벤치마크 데이터셋에서 우수한 성능을 시연하고, 퍼시코트 구조를 포함하여 최신 방법과 비교한다.

제안 방법

  • 입력 x에 대해 LxL 대칭 점수 행렬 U_theta(x)를 출력하는 Deep Score Network로 염기쌍 점수를 예측한다.
  • 언롤된 제약 최적화 알고리즘에서 도출된 Post-Processing Network를 통해 후처리 중 RNA 구조 제약을 강제한다.
  • 후처리를 A ∈ [0,1]에서의 볼록 완화 최적화와 대칭성 및 엄격한 제약으로 형태를 만들고, A = T(hatA) 변환을 사용하여 타당성을 인코딩한다.
  • 최적화를 학습 가능한 하이퍼파라미터를 가진 PP_phi로 언롤링하여 U_theta와 함께 엔드-투-엔드 학습이 가능하도록 한다.
  • 염기쌍 예측 품질 향상을 위해 F1(정밀도/재현율)의 미분 가능 대리손실을 직접 최적화한다.
  • 로지스틱 회귀 손실로 사전 학습한 다음, U_theta와 PP_phi를 함께 학습시켜 궤적 기반 -F1 손실을 최대화한다.

실험 결과

연구 질문

  • RQ1음성적으로 hard structural constraints를 포함하여 퍼시코트를 포함한 RNA 이차구조를 엔드-투-엔드 모델이 예측할 수 있는가?
  • RQ2훈련 중 언롤된 제약 최적화 후처리 단계를 통합하면 분리된 설정보다 정확도와 효율성이 향상되는가?
  • RQ3특히 퍼시코트 구조에 대해 벤치마크 데이터셋에서 E2Efold가 최첨단 방법과 비교하여 어떤 성능을 보이는가?

주요 결과

MethodPrecRecF1Prec(S)Rec(S)F1(S)
E2Efold0.6860.660.6860.7040.660.704
CDPfold0.5450.5350.5450.5970.5850.597
LinearFold0.6210.6170.6210.6470.6440.647
Mfold0.4010.3830.4010.4210.4030.421
RNAstructure0.5850.6150.5850.6130.6450.613
RNAfold0.5920.6270.5920.6150.6520.615
CONTRAfold0.6380.6790.6380.6620.7050.662
  • E2Efold는 벤치마크 데이터셋에서 SOTA에 비해 우수한 F1 점수를 달성하며, 퍼시코트 처리에서도 강한 성능을 보인다.
  • RNAstralign에서 E2Efold는 더 높은 정확도를 제공하고 LinearFold와 유사한 빠른 추론 시간을 유지한다.
  • 벤치마크 전반에서 E2Efold는 정밀도와 재현율을 개선하며 F1 점수에서 뚜렷한 이점을 보인다.
  • 결합된 엔드-투-엔드 학습과 차별 가능 언롤드 후처리 단계가 있는 경우, 후처리 전용 변형보다 성능이 더 우수하다.
  • 퍼시코트가 포함된 예측이 개선되며, E2Efold는 퍼시코트를 명시적으로 처리하는 베이스라인과 대등하거나 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.