[論文レビュー] Evaluation of large language models for discovery of gene set function
論文は遺伝子セット機能の発見における五つの大規模言語モデルをベンチマークし、GPT-4 が curated な機能と検証可能なサポートを伴うオミクス由来の新規機能を信頼性高く特定するのに対し、他モデルは自信度が限定的または誤解を招くことを示す。
Gene set analysis is a mainstay of functional genomics, but it relies on curated databases of gene functions that are incomplete. Here we evaluate five Large Language Models (LLMs) for their ability to discover the common biological functions represented by a gene set, substantiated by supporting rationale, citations and a confidence assessment. Benchmarking against canonical gene sets from the Gene Ontology, GPT-4 confidently recovered the curated name or a more general concept (73% of cases), while benchmarking against random gene sets correctly yielded zero confidence. Gemini-Pro and Mixtral-Instruct showed ability in naming but were falsely confident for random sets, whereas Llama2-70b had poor performance overall. In gene sets derived from 'omics data, GPT-4 identified novel functions not reported by classical functional enrichment (32% of cases), which independent review indicated were largely verifiable and not hallucinations. The ability to rapidly synthesize common gene functions positions LLMs as valuable 'omics assistants.
研究の動機と目的
- 遺伝子セットによって表現される共通の生物学的機能を発見する大規模言語モデルの能力を評価する。
- LLM が支持理由、引用、および信頼度評価を提供するかどうかを評価する。
- Gene Ontology の標準セットとランダムな遺伝子セットとを比較する。
提案手法
- 遺伝子セット機能発見タスクにおける五つの大規模言語モデルをベンチマークする。
- curated GO 用語または一般概念を回収する能力を測定する。
- 各モデルが生成する信頼度、支持理由、引用を評価する。
- Gene Ontology の標準セットでのテスト。
- オミクスデータ由来の遺伝子セットから新規機能を特定するテスト。
- モデル間での誤信頼と幻覚リスクを評価する。
実験結果
リサーチクエスチョン
- RQ1LLMs は Gene Ontology の用語または概念に対応する curated な遺伝子セット機能を回収できるか?
- RQ2LLMs は発見された機能に対して信頼できる支持理由と引用を提供するか?
- RQ3ランダムな遺伝子セットに対して信頼度と正確さの点で LLM はどうか?
- RQ4LLMs は classique な富集以外のオミクス由来の遺伝子セットから新規で検証可能な機能を特定できるか?
- RQ5このタスクにおける GPT-4、Gemini-Pro、Mixtral-Instruct、Llama2-70b、その他のモデルの比較的な長所と弱点は何か?
主な発見
- GPT-4 は GO ベースのケースの 73% で curated な名称またはより一般的な概念を回収した。
- ランダムな遺伝子セットに対しては自信度ゼロとなった。
- Gemini-Pro および Mixtral-Instruct は機能を特定できたが、ランダムセットに対して偽の自信を示した。
- Llama2-70b は全体的な成績が低かった。
- GPT-4 はオミクス由来の遺伝子セットで新規機能を 32% のケースで特定し、独立レビューによって検証可能で幻覚ではないことが主張された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。