QUICK REVIEW

[論文レビュー] Can AI Agents Generate Microservices? How Far are We?

Bassam Adnan, Matteo Esposito|arXiv (Cornell University)|Mar 9, 2026

Software System Performance and Reliability被引用数 0

ひとこと要約

AIエージェントは維持可能なコードを備えた機能的なマイクロサービスを生成でき、クリーン状態シナリオでの高い統合正確性を達成するが、完全に自律的な生成は未完成で人間の監督を要する。

ABSTRACT

LLMs have advanced code generation, but their use for generating microservices with explicit dependencies and API contracts remains understudied. We examine whether AI agents can generate functional microservices and how different forms of contextual information influence their performance. We assess 144 generated microservices across 3 agents, 4 projects, 2 prompting strategies, and 2 scenarios. Incremental generation operates within existing systems and is evaluated with unit tests. Clean state generation starts from requirements alone and is evaluated with integration tests. We analyze functional correctness, code quality, and efficiency. Minimal prompts outperformed detailed ones in incremental generation, with 50-76% unit test pass rates. Clean state generation produced higher integration test pass rates (81-98%), indicating strong API contract adherence. Generated code showed lower complexity than human baselines. Generation times varied widely across agents, averaging 6-16 minutes per service. AI agents can produce microservices with maintainable code, yet inconsistent correctness and reliance on human oversight show that fully autonomous microservice generation is not yet achievable.

研究の動機と目的

AIエージェントが異なる文脈情報レベル下で、明示的なAPI契約を伴う機能的なマイクロサービスを生成できるか評価する。
インクリメンタル生成とクリーン状態生成の設定で自動テストによる機能的正確性を評価する。
AI生成マイクロサービスのコード品質とソフトウェア指標を人間ベースラインと比較する。
シナリオ間での時間、トークン、コストの観点から異なるAIエージェントの効率を評価する。

提案手法

3エージェント、4プロジェクト、2 prompting戦略、2シナリオの組み合わせで144件のマイクロサービス生成を評価する。
既存システム内での検証にはインクリメンタル生成を用い、要件からの検証にはクリーン状態生成を用いる。
機能的正確性（テストパス率）、コード品質（SLOC、Cyclomatic Complexity、SonarQubeによるCognitive Complexity）、効率（トークン、時間、コスト）を測定する。
4条件で2つの prompting戦略(P1: 最小限の文脈; P2: 実装概要を含む)を適用する。
シナリオとプロンプトを比較するため、アルファ=0.01の非パラメトリック統計分析（Anderson-Darling、Wilcoxon符号付き順位、Dunn-All）を実施する。

実験結果

リサーチクエスチョン

RQ1RQ 1: AIエージェントは文脈シナリオの違いで機能的正確性とコード品質が許容範囲内のマイクロサービスを生成できるか。
RQ2RQ 1.1: 既存システム文脈付きのインクリメンタル生成においてAIエージェントはどのように機能するか。
RQ3RQ 1.2: 要件のみからのクリーン状態生成においてAIエージェントはどのように機能するか。
RQ4RQ 2: マイクロサービス生成時のAIエージェント間で時間・トークン・コストの効率はどうか。

主な発見

インクリメンタル生成では、エージェントとプロンプト戦略により平均的なユニットテストパス率は約50–76%の範囲。
クリーン状態生成では統合テストパス率が高く、平均して81–98%であり、API契約の適合性が強いことを示唆。
生成コードは一般に人間のベースラインよりも複雑性が低い（CyclomaticとCognitive Complexityが低い）。
マイクロサービスの生成時間はエージェントにより平均6–16分。Codexは外れ値含め非常に遅い場合があり最大1.74時間。
エージェント別のコストは変動し、Code Qwenが最も費用対効果が高く1サービスあたり約2.98ドル、Claude Codeが最も高価で約13.28ドルとなる。
P1プロンプト（最小限の文脈）はインクリメンタル生成でP2より改善を示すが、クリーン状態生成では一部のエージェントでガイダンスが有効。総じて、API契約の準拠には人間の監督が依然必要である。

Figure 3 : Code Quality Metrics comparison: Lines of Code (LoC), Cyclomatic Complexity (CycC), and Cognitive Complexity (CogC). Top row shows comparison by agent, bottom row shows comparison by configuration.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。