[論文レビュー] Aviary: training language agents on challenging scientific tasks
Aviary は言語エージェントのための gym フレームワークを導入し、expert iteration によってオンラインで訓練されたオープンソース LLM が、複数ステップの科学タスクにおいて最先端モデルに匹敵または上回ることを、推論コストを大幅に抑えつつ示している。
Solving complex real-world tasks requires cycles of actions and observations. This is particularly true in science, where tasks require many cycles of analysis, tool use, and experimentation. Language agents are promising for automating intellectual tasks in science because they can interact with tools via natural language or code. Yet their flexibility creates conceptual and practical challenges for software implementations, since agents may comprise non-standard components such as internal reasoning, planning, tool usage, as well as the inherent stochasticity of temperature-sampled language models. Here, we introduce Aviary, an extensible gymnasium for language agents. We formalize agents as policies solving language-grounded partially observable Markov decision processes, which we term language decision processes. We then implement five environments, including three challenging scientific environments: (1) manipulating DNA constructs for molecular cloning, (2) answering research questions by accessing scientific literature, and (3) engineering protein stability. These environments were selected for their focus on multi-step reasoning and their relevance to contemporary biology research. Finally, with online training and scaling inference-time compute, we show that language agents backed by open-source, non-frontier LLMs can match and exceed both frontier LLM agents and human experts on multiple tasks at up to 100x lower inference cost.
研究の動機と目的
- 言語意思決定過程(LDPs)を定義し、訓練のために言語エージェントを確率的計算グラフとして位置づける。
- multi-step reasoning and tool use を強調するため、3つの科学タスクを含む5つの環境を備えた Aviary を開発する。
- オンライン訓練とサンプリングを用いて、非最先端の LLM が複数のタスクで frontier モデルと同等かそれを超えることを示す。
- 環境、エージェント、オプティマイザを across modular experimentation を可能にするオープンソースのフレームワーク(Aviary と LDP)を提供する。
提案手法
- LDPs を自然言語の状態空間と行動空間を持つ POMDP として形式化する。
- 言語エージェントを決定論的ノードと確率的ノードを組み合わせた確率的計算グラフとして表現する。
- 環境からのオンラインデータを用いて、behavior cloning と expert iteration を用いてエージェントを訓練する。
- 多数決を用いた推論時スケーリングを適用してタスク性能を向上させる。
- Aviary gym 内に DNA construct engineering、literature QA、protein stability タスクを含む5つの環境を実装する。

実験結果
リサーチクエスチョン
- RQ1言語意思決定過程に基づく言語エージェントは、ツール使用と観察フィードバックを伴う多段階の科学タスクを解決できるか。
- RQ2オンライン訓練法(behavior cloning と expert iteration)は、非最先端の LLM が科学タスクで frontier モデルに匹敵することを可能にするか。
- RQ3多数決のような推論時サンプリング戦略が、タスク全体での言語エージェントの性能に与える影響は何か。
主な発見
- オンラインで majority sampling を用いて訓練された非最先端 LLM は、いくつかのタスクで人間の専門家や frontier LLM を上回り、推論コストを最大で 100x 低く抑えることができる(要旨に記載のとおり)。
- Behavior cloning は強力な初期性能向上をもたらし、その後の expert iteration により SeqQA および LitQA2 タスクでさらなる改善を得る。
- 多数決は SeqQA や LitQA2 のような多肢選択タスクの正確さを大幅に向上させ、時には約20ポイント程度向上させる。
- Llama-3.1-8B-Instruct ベースのエージェントは、訓練後、SeqQA や LitQA2 などの難易度の高いタスクで Claude 3.5 Sonnet と同等の性能に達する。
- 訓練済みエージェントは多様なツール使用戦略を展開し、自己訓練の軌跡はデモよりも短く、より直接的になる傾向がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。