[논문 리뷰] Evaluation of large language models for discovery of gene set function
본 논문은 유전자 집합 기능 발견을 위해 5개의 LLM을 벤치마킹하며, GPT-4가 큐레이션된 기능과 검증 가능한 오믹스 유래의 새로운 기능을 신뢰할 수 있게 식별하는 반면, 다른 모델들은 제한적이거나 오해를 불러일으키는 신뢰도를 보인다.
Gene set analysis is a mainstay of functional genomics, but it relies on curated databases of gene functions that are incomplete. Here we evaluate five Large Language Models (LLMs) for their ability to discover the common biological functions represented by a gene set, substantiated by supporting rationale, citations and a confidence assessment. Benchmarking against canonical gene sets from the Gene Ontology, GPT-4 confidently recovered the curated name or a more general concept (73% of cases), while benchmarking against random gene sets correctly yielded zero confidence. Gemini-Pro and Mixtral-Instruct showed ability in naming but were falsely confident for random sets, whereas Llama2-70b had poor performance overall. In gene sets derived from 'omics data, GPT-4 identified novel functions not reported by classical functional enrichment (32% of cases), which independent review indicated were largely verifiable and not hallucinations. The ability to rapidly synthesize common gene functions positions LLMs as valuable 'omics assistants.
연구 동기 및 목표
- 유전자 집합으로 표현된 일반적인 생물학적 기능을 발견하는 대형 언어 모델의 능력을 평가한다.
- LLMs가 지원 근거, 인용 및 신뢰도 평가를 제공하는지 평가한다.
- Gene Ontology의 정형 게놈 세트와 무작위 게놈 세트에 대해 LLM 성능을 비교한다.
제안 방법
- 유전자 집합 기능 발견 과제에서 5개의 대형 언어 모델을 벤치마킹한다.
- 큐레이션된 GO 용어 또는 일반적 개념을 회수하는 능력을 측정한다.
- 각 모델이 생성하는 신뢰도, 지원 근거 및 인용을 평가한다.
- Gene Ontology의 정형 유전자 세트를 대상으로 테스트한다.
- 오믹스 데이터에서 파생된 유전자 세트를 대상으로 테스트하여 새로운 기능을 식별한다.
- 모델 간의 허위 자신감 및 현혹 위험을 평가한다.
실험 결과
연구 질문
- RQ1LLMs가 Gene Ontology 용어나 개념에 해당하는 큐레이션된 유전자 집합 기능을 회수할 수 있는가?
- RQ2LLMs가 발견된 기능에 대해 신뢰할 수 있는 지원 근거와 인용을 제공하는가?
- RQ3무작위 유전자 세트에 대해 LLM은 자신감과 정확도 면에서 어떠한 성능을 보이는가?
- RQ4LLMs가 클래식한 강화분석을 넘어 오믹스-유도 유전자 세트에서 새로운, 검증 가능한 기능을 식별할 수 있는가?
- RQ5GPT-4, Gemini-Pro, Mixtral-Instruct, Llama2-70b 및 이 작업에서 다른 모델들의 상대적 강점과 약점은 무엇인가?
주요 결과
- GPT-4는 GO 기반 사례의 73%에서 큐레이션된 이름 또는 더 일반적인 개념을 회수했다.
- 무작위 유전자 세트를 벤치마킹할 때는 신뢰도가 0에 해당했다.
- Gemini-Pro 및 Mixtral-Instruct는 기능을 명명할 수 있었으나 무작위 세트에 대해 잘못된 신뢰를 보였다.
- Llama2-70b는 전반적으로 성능이 저조했다.
- GPT-4는 오믹스-유래 유전자 세트에서 32%의 경우 새로운 기능을 식별했으며, 독립적인 검토에 따르면 largely verified and not hallucinations.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.