Skip to main content
QUICK REVIEW

[논문 리뷰] Ankh: Optimized Protein Language Model Unlocks General-Purpose Modelling

Ahmed Elnaggar, Hazem Essam|arXiv (Cornell University)|2023. 01. 16.
Machine Learning in Bioinformatics인용 수 27
한 줄 요약

Ankh는 언어 모델에 대한 단백질 특화 최적화를 제안하여, 전반적 목적의 모델링을 달성하면서도 전임 학습 데이터, 추론 크기 및 임베딩 차원을 상당히 줄이고, 단백질 벤치마크에서 최첨단을 능가합니다.

ABSTRACT

As opposed to scaling-up protein language models (PLMs), we seek improving performance via protein-specific optimization. Although the proportionality between the language model size and the richness of its learned representations is validated, we prioritize accessibility and pursue a path of data-efficient, cost-reduced, and knowledge-guided optimization. Through over twenty experiments ranging from masking, architecture, and pre-training data, we derive insights from protein-specific experimentation into building a model that interprets the language of life, optimally. We present Ankh, the first general-purpose PLM trained on Google's TPU-v4 surpassing the state-of-the-art performance with fewer parameters (<10% for pre-training, <7% for inference, and <30% for the embedding dimension). We provide a representative range of structure and function benchmarks where Ankh excels. We further provide a protein variant generation analysis on High-N and One-N input data scales where Ankh succeeds in learning protein evolutionary conservation-mutation trends and introducing functional diversity while retaining key structural-functional characteristics. We dedicate our work to promoting accessibility to research innovation via attainable resources.

연구 동기 및 목표

  • 모델 크기 확장 대신 데이터 효율적이고 비용 절감적이며 지식 가이드 최적화를 통해 단백질 언어 모델의 성능을 향상시킨다.
  • 일반 목적 모델링을 위한 단백질 특화 인사이트를 도출하기 위해 마스킹, 아키텍처 및 사전 학습 데이터 선택의 영향을 조사한다.
  • 더 작고 최적화된 모델이 다양한 구조 및 기능 벤치마크에서 최첨단을 능가할 수 있음을 보여준다.
  • High-N 및 One-N 데이터 규모에서 단백질 변이 생성 분석을 통해 진화적 보존-돌연변이 경향과 기능적 다양성을 학습한다.
  • 실현 가능한 자원을 제공하고 연구 혁신으로의 열린 경로를 제공함으로써 접근성을 촉진한다.

제안 방법

  • 마스킹, 아키텍처, 사전 학습 데이터에 걸친 20개가 넘는 단백질 특화 설계 선택지를 실험한다.
  • Google의 TPU-v4 하드웨어에서 일반 목적 PLM인 Ankh를 학습시킨다.
  • 구조 및 기능 벤치마크의 대표 집합을 사용하여 최첨단 PLM과 비교한다.
  • High-N 및 One-N 입력 데이터 규모에서 단백질 변이 생성을 평가하여 보존, 돌연변이 경향 및 기능적 다양성을 평가한다.
  • 더 적은 매개변수 수와 축소된 임베딩 차원이 성능과 접근성에 어떤 영향을 미치는지 분석한다.

실험 결과

연구 질문

  • RQ1단백질 특화 최적화가 규모를 확장하지 않고도 더 큰 모델과 경쟁하거나 이를 능가하는 일반 목적 PLM 성능을 낼 수 있는가?
  • RQ2어떤 마스킹, 아키텍처 및 데이터 선택이 단백질 언어 이해와 다운스트림 작업을 가장 개선하는가?
  • RQ3이전 최첨단 PLMs와 비교하여 구조/기능 벤치마크에서 Ankh의 성능은 어떤가?
  • RQ4제약된 데이터 규모에서도 Ankh가 진화적 보존-돌연변이 경향을 학습하고 기능적 다양성을 지원하는가?
  • RQ5효과적인 단백질 특화 PLM의 자원 영향(사전 학습 데이터, 추론, 임베딩 크기)은 무엇인가?

주요 결과

  • Ankh는 더 적은 매개변수와 실질적으로 축소된 자원으로 최첨단 성능을 능가한다.
  • 사전 학습은 매개변수의 <10%, 추론은 매개변수의 <7%, 임베딩 차원은 일반적인 기준의 <30%를 사용한다.
  • Ankh는 구조 및 기능 벤치마크의 대표적 범위에서 강한 성능을 보인다.
  • High-N 및 One-N 데이터 규모에서 Ankh는 진화적 보존-돌연변이 경향을 학습하고 기능적 다양성을 도입하는 한편 주요 구조-기능 특성을 보존한다.
  • 이 연구는 데이터 효율적 최적화를 우선시하고 달성 가능한 자원을 제시함으로써 접근성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.