[論文レビュー] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
論文はリポジトリレベルのコンテキストファイル(AGENTS.md)を体系的に評価し、開発者が作成したコンテキストファイルは性能向上がわずかに留まる一方、自動生成のコンテキストファイルは性能を低下させコストを増大させる傾向があり、コンテキストファイルは探索とテストを促進することも示しています。
A widespread practice in software development is to tailor coding agents to repositories using context files, such as AGENTS.md, by either manually or automatically generating them. Although this practice is strongly encouraged by agent developers, there is currently no rigorous investigation into whether such context files are actually effective for real-world tasks. In this work, we study this question and evaluate coding agents' task completion performance in two complementary settings: established SWE-bench tasks from popular repositories, with LLM-generated context files following agent-developer recommendations, and a novel collection of issues from repositories containing developer-committed context files. Across multiple coding agents and LLMs, we find that context files tend to reduce task success rates compared to providing no repository context, while also increasing inference cost by over 20%. Behaviorally, both LLM-generated and developer-provided context files encourage broader exploration (e.g., more thorough testing and file traversal), and coding agents tend to respect their instructions. Ultimately, we conclude that unnecessary requirements from context files make tasks harder, and human-written context files should describe only minimal requirements.
研究の動機と目的
- リポジトリレベルのコンテキストファイルが自律的なコーディングタスクの完遂を改善するかを評価する。
- 実世界のタスクに対するコンテキストファイルの影響をベンチマークする AGENTbench を作成する。
- 開発者提供と自動生成コンテキストファイルを複数のエージェントとプロンプトにわたって比較する。
- コンテキストファイルを含めた場合の行動変化とコスト影響を調査する。
提案手法
- 開発者が作成したコンテキストファイルを含むリポジトリの実GitHub PR から AGENTbench を構築する。
- 四つのコーディングエージェントを SWE-bench Lite および AGENTbench の3つの設定(なし、LLM 生成コンテキスト、人的提供コンテキスト)で評価する。
- 成功率、解法までの手順、LLM 推論コストを測定する。
- 探索、テスト、推論の変化を理解するためにエージェントのトレースを分析する。

実験結果
リサーチクエスチョン
- RQ1リポジトリレベルのコンテキストファイルは実世界のタスクでコーディングエージェントの成功率を改善するか。
- RQ2開発者提供と自動生成コンテキストファイルはエージェントの挙動とコストにどのように影響するか。
- RQ3コンテキストファイルはタスク解決を支援する意味のあるリポジトリの概要を提供するか。
- RQ4コンテキストファイルはエージェントのテストと探索の挙動にどのような影響を与えるか。
主な発見
- コンテキストファイルはリポジトリコンテキストを提供しない場合と比べてタスクの成功率を低下させる傾向がある。
- LLM生成のコンテキストファイルは平均的な性能を小幅に低下させ、推論コストを20%以上増加させる。
- 開発者提供のコンテキストファイルは無コンテキストと比較して、平均で約4%のわずかな性能向上を提供する。
- コンテキストファイルは探索・テスト・推論を増加させ、明確な概要の利点がなくコストが高くなる。
- ドキュメンテーションが削除された場合、LLM生成のコンテキストファイルが開発者作成のものを上回ることがあり、共通リポジトリの多くのコンテキストファイルの冗長性を示唆する。
- コンテキストファイルは一般的にエージェントに従われるが、効果的なリポジトリの概要としては機能しない。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。