[논문 리뷰] Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers
Prot2Text는 그래프 기반의 구조 표현과 서열 모델을 엔코더-디코더 GNN+LLM 프레임워크로 융합하여 자유로운 텍스트 형태의 단백질 기능 설명을 생성하며, SwissProt에서 파생된 다중 모달 데이터셋에서 평가된다.
In recent years, significant progress has been made in the field of protein function prediction with the development of various machine-learning approaches. However, most existing methods formulate the task as a multi-classification problem, i.e. assigning predefined labels to proteins. In this work, we propose a novel approach, Prot2Text, which predicts a protein's function in a free text style, moving beyond the conventional binary or categorical classifications. By combining Graph Neural Networks(GNNs) and Large Language Models(LLMs), in an encoder-decoder framework, our model effectively integrates diverse data types including protein sequence, structure, and textual annotation and description. This multimodal approach allows for a holistic representation of proteins' functions, enabling the generation of detailed and accurate functional descriptions. To evaluate our model, we extracted a multimodal protein dataset from SwissProt, and demonstrate empirically the effectiveness of Prot2Text. These results highlight the transformative impact of multimodal models, specifically the fusion of GNNs and LLMs, empowering researchers with powerful tools for more accurate function prediction of existing as well as first-to-see proteins.
연구 동기 및 목표
- 단백질 기능 예측을 고정된 라벨이 아닌 자유 텍스트 생성으로 재정의한다.
- 시퀀스, 구조, 텍스트 주석을 하나의 다중 모달 인코더에 통합한다.
- 그래프 정보와 서열 정보를 융합하는 것이 기능 설명의 품질을 향상시킴을 입증한다.
- 벤치마킹을 위한 크고 공개된 다중 모달 단백질 데이터셋을 제공한다.
- 모델 크기, 성능, 추론 비용 간의 트레이드오프를 평가한다.
제안 방법
- AlphaFold 구조로부터 연속적, 공간적, 수소 결합 간선 유형을 포함하는 이질적 단백질 그래프를 구성한다.
- Relational Graph Convolutional Networks(RGCN)로 그래프를 인코딩하여 h_G를 생성한다.
- 사전학습된 ESM2-35M 모델로 서열을 인코딩하고 공통 차원으로 투영한다.
- 프로젝션된 그래프 특징을 잔류당 단위 임베딩에 더해주는 융합 블록을 통해 서열 및 그래프 표현을 융합하고, 그 뒤에 프로젝션과 정규화를 수행한다.
- 융합된 단백질 표현에 대한 교차 어텐션을 갖는 GPT-2 기반 트랜스포머 디코더를 사용하여 자유 텍스트 단백질 설명을 디코드한다.
- 인과적 언어 모델링(CLM)로 학습하여 최대 256토큰 설명을 생성하고, 시퀀스 경계용 두 개의 토큰을 추가한 GPT-2 토크나이저를 사용한다.]
- research_questions_1,2,3,4,5
실험 결과
연구 질문
- RQ1다중 모달로 단백질 구조와 서열 정보를 융합하면 상세한 자유 텍스트 단백질 기능 생성이 가능한가?
- RQ2그래프 기반의 구조 인코딩과 단백질 언어 모델의 통합이 텍스트 생성 품질에 어떤 영향을 미치는가?
- RQ3어떤 데이터셋과 평가 지표가 단일 모달 기준선 대비 개선을 가장 잘 보여주는가?
- RQ4Prot2Text에서 모델 크기가 생성 품질과 추론 시간에 미치는 영향은 무엇인가?
- RQ5전용 융합 메커니즘이 단순 모달 결합보다 단백질-텍스트 생성에 우수한가?
주요 결과
| 모델 | # Params | BLEU 점수 | Rouge-1 | Rouge-2 | Rouge-L | BERT 점수 |
|---|---|---|---|---|---|---|
| vanilla-Transformer | 225M | 15.75 | 27.80 | 19.44 | 26.07 | 75.58 |
| ESM2-35M | 225M | 32.11 | 47.46 | 39.18 | 45.31 | 83.21 |
| RGCN | 220M | 21.63 | 36.20 | 28.01 | 34.40 | 78.91 |
| RGCN + ESM2-35M | 255M | 30.39 | 45.75 | 37.38 | 43.63 | 82.51 |
| RGCN × vanilla-Transformer | 283M | 27.97 | 42.43 | 34.91 | 40.72 | 81.12 |
| Prot2Text BASE | 283M | 35.11 | 50.59 | 42.71 | 48.49 | 84.30 |
| Prot2Text SMALL | 256M | 30.01 | 45.78 | 38.08 | 43.97 | 82.60 |
| Prot2Text MEDIUM | 398M | 36.51 | 52.13 | 44.17 | 50.04 | 84.83 |
| Prot2Text LARGE | 898M | 36.29 | 53.68 | 45.60 | 51.40 | 85.20 |
- Prot2Text BASE는 평가된 모델 중 BLEU (35.11), Rouge-1 (50.59), Rouge-2 (42.71), Rouge-L (48.49), 및 BERT Score (84.30)에서 최고치를 달성한다.
- RGCN과 ESM2-35M 시퀀스 인코더를 결합한 다중 모달 인코더가 단일 모달 베이스라인(vanilla-Transformer, ESM2-35M)과 단순 융합 방식보다 우수하다.
- 더 큰 Prot2Text 변형이 대부분의 지표를 향상시키며, Prot2Text MEDIUM(398M)이 정확도와 시간의 균형에 우호적이다.
- RGCN만으로도 vanilla-Transformer보다 성능이 향상되며, RGCN+ESM2-35M은 vanilla 구성보다 크게 우수하여 구조 인식 기반의 서열 통합의 가치를 강조한다.
- 융합 블록 설계가 중요하다; 단순 연결(RGCN + ESM2-25)은 선택된 융합 방식보다 저조하여 교차 모달 상호작용 메커니즘의 이점을 시사한다.
- 256,690개의 단백질(구조, 서열, 설명)을 포함하는 공개 다중 모달 데이터셋이 벤치마킹 및 향후 연구를 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.