[論文レビュー] KOCO-BENCH: Can Large Language Models Leverage Domain Knowledge in Software Development?
KoCo-Benchは、LLMがドメイン知識を取得・適用してドメイン特化ソフトウェア開発を行う能力を評価する知識コーパス駆動ベンチマークで、既存のドメイン特化手法による利得は限定的であることを明らかにする。
Large language models (LLMs) excel at general programming but struggle with domain-specific software development, necessitating domain specialization methods for LLMs to learn and utilize domain knowledge and data. However, existing domain-specific code benchmarks cannot evaluate the effectiveness of domain specialization methods, which focus on assessing what knowledge LLMs possess rather than how they acquire and apply new knowledge, lacking explicit knowledge corpora for developing domain specialization methods. To this end, we present KOCO-BENCH, a novel benchmark designed for evaluating domain specialization methods in real-world software development. KOCO-BENCH contains 6 emerging domains with 11 software frameworks and 25 projects, featuring curated knowledge corpora alongside multi-granularity evaluation tasks including domain code generation (from function-level to project-level with rigorous test suites) and domain knowledge understanding (via multiple-choice Q&A). Unlike previous benchmarks that only provide test sets for direct evaluation, KOCO-BENCH requires acquiring and applying diverse domain knowledge (APIs, rules, constraints, etc.) from knowledge corpora to solve evaluation tasks. Our evaluations reveal that KOCO-BENCH poses significant challenges to state-of-the-art LLMs. Even with domain specialization methods (e.g., SFT, RAG, kNN-LM) applied, improvements remain marginal. Best-performing coding agent, Claude Code, achieves only 34.2%, highlighting the urgent need for more effective domain specialization methods. We release KOCO-BENCH, evaluation code, and baselines to advance further research at https://github.com/jiangxxxue/KOCO-bench.
研究の動機と目的
- 既存のコードベンチマークを超えたドメイン固有の評価の必要性を動機づけ、ドメイン知識の獲得と利用に焦点を当てる。
- 複数のソフトウェアフレームワークとドメインを跨ぐコーパス付きベンチマークを提供し、ドメインコード生成と知識理解を評価する。
- 現実的で長いコンテキストを持つソフトウェアプロジェクトに対して、学習ベース・取得ベース・エージェント型アプローチの評価を可能にする。
- 多層的な要件定義を用いた厳密なテストスイート駆動の評価を提供し、多段階の正確性と知識理解を測定する。
提案手法
- 6つのドメインと11のフレームワークに跨るフレームワーク文書、ソースコード、利用例から派生したKnowledge Corpusを用いてKoCo-Benchを導入する。
- ドメインコード生成(関数レベルからプロジェクトレベル、単体/結合テスト付き)とドメイン知識理解(多肢選択式QA)の2つのタスクタイプを作成する。
- プロジェクト、モジュール、コア関数という多層の要件記述と、生成コードを検証する総合的なテストスイートを構築する。
- データ品質を保証し汚染を防ぐため、注釈付きの人間監督プロセスと限定的なエージェント支援を用いる。
- KoCo-Bench上で最先端のLLM、ドメイン特化手法(SFT、LoRA、RAG、kNN-LM)およびエージェントベースシステムを評価する。
- コーパスサイズ効果、継続学習、エラーパターンの分析を行う。
実験結果
リサーチクエスチョン
- RQ1LLMは整理されたコーパラから外部ドメイン知識を獲得し、ドメイン特化コード生成を行えるか。
- RQ2既存のドメイン特化手法は、ソフトウェアフレームワークにおけるドメインコード生成とドメイン知識理解の性能をどの程度改善するか。
- RQ3エージェント型のコーディングアプローチは、純粋な取得ベースまたはファインチューニングベースの手法よりドメイン特化ソフトウェア開発で優れているか。
- RQ4知識コーパスのサイズとドメイン間の継続学習が、ドメイン知識の保持と移転にどう影響するか。
- RQ5ドメイン特化コード生成時の支配的なエラータイプは何か、ドメインAPIの知識とデータフロー推論のギャップはどこにあるか。
主な発見
- 最先端のLLMであっても、KoCo-Benchでのドメインコード生成は依然として難しく、Pass@1スコアは桁違いのゼロから一桁台にとどまる。
- ドメイン特化手法は僅かな改善に留まり、ドメインごとにその効果は異なる。
- エージェントベースのコーディング手法(例:Claude Code)が測定対象の中で最も良い性能を示すが、実用要件にはまだ届かない。
- 学習ベースの特化はコーパスサイズの拡大とともに利益が減衰する可能性があり、継続学習下で以前に学習したドメイン知識を忘れることがある。
- 最も一般的なエラーは、無効なドメインAPI呼び出しとデータ制約違反であり、ドメインAPI知識とデータフロー推論のギャップを浮き彫りにしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。