[論文レビュー] Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents
tldr: Agent Rosettaを紹介。RosettaScriptsと統合されたLLM駆動のエージェントでタンパク質を反復設計し、MLベースラインと競合する性能を達成、非正 canonical残基を可能にする。
Large language models (LLMs) are capable of emulating reasoning and using tools, creating opportunities for autonomous agents that execute complex scientific tasks. Protein design provides a natural testbed: although machine learning (ML) methods achieve strong results, these are largely restricted to canonical amino acids and narrow objectives, leaving unfilled need for a generalist tool for broad design pipelines. We introduce Agent Rosetta, an LLM agent paired with a structured environment for operating Rosetta, the leading physics-based heteropolymer design software, capable of modeling non-canonical building blocks and geometries. Agent Rosetta iteratively refines designs to achieve user-defined objectives, combining LLM reasoning with Rosetta's generality. We evaluate Agent Rosetta on design with canonical amino acids, matching specialized models and expert baselines, and with non-canonical residues -- where ML approaches fail -- achieving comparable performance. Critically, prompt engineering alone often fails to generate Rosetta actions, demonstrating that environment design is essential for integrating LLM agents with specialized software. Our results show that properly designed environments enable LLM agents to make scientific software accessible while matching specialized tools and human experts.
研究の動機と目的
- 自律エージェントを用いてRosettaベースの複雑なタンパク質設計タスクを自動化する動機づけ。
- 環境設計がLLMsとドメイン特化ソフトウェアを橋渡しする上で重要であることを実証。
- Agent Rosettaが正規設計で専門のMLモデルと同等、非正規残基で人間ベースラインを上回ることを示す。
- 中間設計指標に基づいてプロトコルを適応させる多ターン最適化のフレームワークを提供。
提案手法
- Agent Rosettaを開発。RosettaScripts環境と連携し頑健なアクション生成を実現するLLMエージェント。
- サロゲート指標(回転半径、空洞体積、閉塞不満足H結合、ターゲットへのRMSD、pLDDT)を用いて、Poseデータの全量を参照せず意思決定を誘導。
- 設計パイプラインをRosettaScripts内でカバーする3つのアクションタイプ(rotamer_change、backbone_change、go_back_to)を定義。
- 構造化された多ターン推論を使用:アクション選択、環境ドキュメントを用いたパラメータ生成、実行、設計を洗練させるフィードバック。
- R osettaScriptsのペナルティと操作を簡略化したテンプレートに抽象化し、意味的に正しいアクションを保証し信頼できる多ターン対話を可能にする。
実験結果
リサーチクエスチョン
- RQ1LLMエージェントは構造化された環境を介してRosettaを効果的に制御し、タンパク質設計目標を最適化できるか?
- RQ2環境設計(プロンプト以外の設計)がRosettaScriptsのドメイン特化アクションの信頼性ある生成を可能にするか?
- RQ3正規固定バックボーン設計でAgent RosettaはProteinMPNNと人間のプロトコルと比較してどうか?
- RQ4Agent Rosettaはタンパク質コアに非正規アミノ酸を設計できるか。MLモデルが苦戦する領域か?
主な発見
- Agent Rosettaは正規アミノ酸でProteinMPNNと競合する設計品質を達成(RMSD tolerance 0.20 Å以内)。
- Agent Rosettaは非正規アミノ酸タスクで専門家の人間ベースラインを上回り、データ駆動手法を超える能力を示す。
- プロンプトだけでは適切なRosettaアクション生成は不十分であり、環境と構文設計がロバストなエージェント性能に不可欠。
- 適切に設計された環境を用いると、全ての検証済みLLMでアクション成功率が≥86%を達成。
- GPT-5ベースの構成が複数の実験で最良のコスト対性能を示す。
- NCAA設計ではAgent Rosettaが人間ベースラインよりAF3 RMSDとpLDDTが高く、平均して構造検証が改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。