QUICK REVIEW

[論文レビュー] CodePori: Large-Scale System for Autonomous Software Development Using Multi-Agent Technology

Zeeshan Rasheed, Sami, Malik Abdul|arXiv (Cornell University)|Feb 2, 2024

Software Engineering Research被引用数 5

ひとこと要約

CodePori は、大規模で複雑なソフトウェアプロジェクトの実行コードを自動生成する LLM ベースのマルチエージェントフレームワークを提示し、HumanEval および MBPP で高い pass@1 スコアと実務家の支持を得て評価されている。

ABSTRACT

Context: Large Language Models (LLMs) and Generative Pre-trained Transformers (GPTs) have transformed the field of Software Engineering (SE). Existing LLM-based multi-agent models have successfully addressed basic dialogue tasks. However, the potential of LLMs for more challenging tasks, such as automated code generation for large and complex projects, has been investigated in only a few existing works. Objective: This paper aims to investigate the potential of LLM-based agents in the software industry, particularly in enhancing productivity and reducing time-to-market for complex software solutions. Our primary objective is to gain insights into how these agents can fundamentally transform the development of large-scale software. Methods: We introduce CodePori, a novel system designed to automate code generation for large and complex software projects based on functional and non-functional requirements defined by stakeholders. To assess the proposed system performance, we utilized the HumanEval benchmark and manually tested the CodePori model, providing 20 different project descriptions as input and then evaluated the code accuracy by manually executing the code. Results: CodePori is able to generate running code for large-scale projects, aligned with the typical software development process. The HumanEval benchmark results indicate that CodePori improves code accuracy by 89%. A manual assessment conducted by the first author shows that the CodePori system achieved an accuracy rate of 85%. Conclusion: Based on the results, our conclusion is that proposed system demonstrates the transformative potential of LLM-based agents in SE, highlighting their practical applications and opening new opportunities for broader adoption in both industry and academia. Our project is publicly available at https://github.com/GPT-Laboratory/CodePori.

研究の動機と目的

大規模で複雑なプロジェクトのソフトウェア開発の自動化を、マルチエージェント LLM システムを用いて促進する。
自然言語プロンプトからコードを生成・レビュー・検証・テストするために、専門エージェントが協働する仕組みを示す。
CodePori を確立されたベンチマークと実務家のフィードバックと比較評価して、正確さ・効率・実用性を評価する。

提案手法

設計、開発、レビュー、検証、テストを専門とするエージェントを持つマルチエージェント・フレームワークを提案する。
マネージャーエージェントを用いて、高レベルの記述をエージェント用のモジュールタスクへ分解する。
埋め込みおよび LLM API（例：GPT-4/DaVinci）を介した統合的な通信プロトコルを用いて、コードを生成・改良する。
HumanEval および MBPP ベンチマークを pass@k 指標で評価し、MetaGPT、ChatDev、AlphaCode、Incoder、CodeGeeX、Codex、PaLM などのモデルと比較する。
現実世界での使いやすさと性能を評価するために、7 名の実務家を参加させる。

実験結果

リサーチクエスチョン

RQ1RQ1: LLM ベースのマルチエージェントモデルは、大規模で複雑なプロジェクトのコードをどのように生成するのか？
RQ2RQ2: 提案モデルのコード精度と効率は、既存モデルと比べてどうか？

主な発見

ID	専門家の役割	経験年数	総合パフォーマンス	フィードバック	提案
P1	ソフトウェアエンジニア	5	Excellent	複雑なモデルの処理に感銘を受けた。	特定のシナリオの処理を強化する。
P2	AI研究者	7	Very Good	コードの精度と効率を確認。	モデルの文脈理解を改善する。
P3	上級開発者	10	Good	スムーズなコード統合を評価。	コード最適化に注力。
P4	データサイエンティスト	4	Good	コードの機能性に満足。	より多くのカスタマイズオプションが必要。
P5	ソフトウェアアーキテクト	12	Fair	ドメイン固有タスクの制約を指摘。	特殊化されたモジュール作成を提案。
P6	機械学習エンジニア	6	Very Good	コードの明快さと保守性を高く評価。	エラーハンドリング機能の強化。
P7	ITプロジェクトマネージャー	8	Good	小さな調整が必要。	モデルのスケーラビリティを向上させる。

CodePori は HumanEval で pass@1 が 87.5%、MBPP で 86.5% を達成し、いくつかの既存モデルを上回る。
実務家の評価では、CodePori のパフォーマンスに対する総合満足度が 91%。
CodePori は 1000 行超のプロジェクトのコードを生成でき、開発サイクルを 20 分未満で完了し、費用は約1ドル。
MetaGPT、ChatDev、AlphaCode、Incoder、CodeGeeX、Codex、PaLM などのモデルと比較して、ベンチマークでのコード精度と効率が優れている。
専門のエージェント（開発、レビュー、検証、テスト）間の協調を改善することで、大規模なソフトウェア成果物（1000 行以上）の生成をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。