[논문 리뷰] Scientific Large Language Models: A Survey on Biological & Chemical Domains
이 설문조사는 생물학 및 화학 영역에 초점을 맞춘 Scientific Large Language Models (Sci-LLMs)를 체계적으로 검토하며, 텍스트, 분자, 단백질, 게놈 및 다중모달 LLMs, 아키텍처, 데이터, 평가 및 도전과제를 다룬다.
Large Language Models (LLMs) have emerged as a transformative power in enhancing natural language comprehension, representing a significant stride toward artificial general intelligence. The application of LLMs extends beyond conventional linguistic boundaries, encompassing specialized linguistic systems developed within various scientific disciplines. This growing interest has led to the advent of scientific LLMs, a novel subclass specifically engineered for facilitating scientific discovery. As a burgeoning area in the community of AI for Science, scientific LLMs warrant comprehensive exploration. However, a systematic and up-to-date survey introducing them is currently lacking. In this paper, we endeavor to methodically delineate the concept of "scientific language", whilst providing a thorough review of the latest advancements in scientific LLMs. Given the expansive realm of scientific disciplines, our analysis adopts a focused lens, concentrating on the biological and chemical domains. This includes an in-depth examination of LLMs for textual knowledge, small molecules, macromolecular proteins, genomic sequences, and their combinations, analyzing them in terms of model architectures, capabilities, datasets, and evaluation. Finally, we critically examine the prevailing challenges and point out promising research directions along with the advances of LLMs. By offering a comprehensive overview of technical developments in this field, this survey aspires to be an invaluable resource for researchers navigating the intricate landscape of scientific LLMs.
연구 동기 및 목표
- 생물학 및 화학 도메인에서 과학적 언어와 Sci-LLMs의 개념을 정의하고 형식화한다.
- 아키텍처, 데이터 및 평가를 포함하여 기존의 Text-Sci-LLMs, Mol-LLMs, Prot-LLMs, Genomic-LLMs, MM-Sci-LLMs를 조사한다.
- 과학 언어 모델링에 사용된 데이터 세트, 벤치마크 및 평가 기준을 요약한다.
- Sci-LLMs의 주요 도전과제를 식별하고 향후 연구 방향을 제안한다.
제안 방법
- Sci-LLMs를 인코더 전용, 디코더 전용, 인코더-디코더 아키텍처로 분류한다.
- 텍스트 및 도메인 특화 코퍼스에서 사전 학습 및 미세 조정에 사용된 데이터 세트를 검토한다.
- 텍스트, 분자, 단백질, 게놈 및 다중모달 설정 전반에 걸친 모델 능력과 하류 작업을 분류한다.
- 과학 언어(분자, 단백질, 게놈)가 LLM에 의해 어떻게 표현되고 처리되는지 평가한다.
- 한계점을 종합하고 다중모달 Sci-LLMs를 발전시킬 방향을 제안한다.
실험 결과
연구 질문
- RQ1생물학 및 화학에서 Sci-LLMs에 가장 효과적인 아키텍처와 학습 패러다임은 무엇인가?
- RQ2텍스트 및 도메인 특화 Sci-LLMs의 발전을 이끄는 데이터 세트와 벤치마크는 무엇인가?
- RQ3Mol-LLMs, Prot-LLMs, Genomic-LLMs 및 MM-Sci-LLMs의 능력과 평가에서 어떤 차이가 있는가?
- RQ4다중모달 과학 언어 모델링의 주요 도전과 미래 방향은 무엇인가?
주요 결과
- 본 연구는 텍스트, 분자, 단백질, 게놈 및 다중모달 도메인에 걸친 Sci-LLMs의 구조화된 분류학을 제공합니다.
- 모델 계열, 데이터 세트, 평가 벤치마크를 모아 Sci-LLMs의 사전 학습 및 미세 조정 방식이 어떻게 수행되는지 명확히 설명합니다.
- 과학 언어(분자, 단백질, 게놈)의 고유한 표현과 문법이 자연어와 어떻게 다른지 강조합니다.
- 데이터 가용성, 모달리티 간 정렬 및 과학적 작업 평가에서의 핵심 도전과제를 식별합니다.
- 다중모달 통합 및 도메인 특화 평가 기준을 포함한 유망한 방향을 논의합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.