[論文レビュー] CktEvo: Repository-Level RTL Code Benchmark for Design Evolution
CktEvoはリポジトリレベルのRTLベンチマークと閉ループLLMベースのフレームワークを導入し、複数ファイルのVerilogリポジトリを機能を維持しつつPPA(面積、遅延、電力の代理指標)を改善して進化させる。オープンソースツールチェーンを使用して人の介入なしに測定可能なADP削減を達成し、設計ごとに異なる利得を示す。
Register-Transfer Level (RTL) coding is an iterative, repository-scale process in which Power, Performance, and Area (PPA) emerge from interactions across many files and the downstream toolchain. While large language models (LLMs) have recently been applied to hardware design, most efforts focus on generation or debugging from natural-language prompts, where ambiguity and hallucinations necessitate expert review. A separate line of work begins from formal inputs, yet typically optimizes high-level synthesis or isolated modules and remains decoupled from cross-file dependencies. In this work, we present CktEvo, a benchmark and reference framework for repo-level RTL evolution. Unlike prior benchmarks consisting of isolated snippets, our benchmark targets complete IP cores where PPA emerges from cross-file dependencies. Our benchmark packages several high-quality Verilog repositories from real-world designs. We formalize the task as: given an initial repository, produce edits that preserve functional behavior while improving PPA. We also provide a closed-loop framework that couples LLM-proposed edits with toolchain feedback to enable cross-file modifications and iterative repair at repository scale. Our experiments demonstrate that the reference framework realizes PPA improvements without any human interactions. CktEvo establishes a rigorous and executable foundation for studying LLM-assisted RTL optimization that matters for engineering practice: repository-level, function-preserving, and PPA-driven.
研究の動機と目的
- リポジトリレベルのRTL進化を、設計リポジトリ全体にわたる機能を保存するPPA駆動の多ファイル最適化として formally define する。
- 多様なドメインをカバーする高品質な多ファイルVerilogベンチマーク(CktEvo)を提供する。
- LLM生成の編集とツールチェーンのフィードバック、形式検証を結ぶ閉ループフレームワークを提案する。
- LLMベースの進化が人間の介入なしに面積と遅延を削減できることを示す。
提案手法
- 検証関数 と評価関数 を用いた形式的タスク定式化が、LSとSTAツールを介して等価性とPPAを測定する。
- 多様な適用ドメインを含む11個の多ファイルVerilog設計からなるリポジトリレベルのRTLベンチマークを構築する。
- グラフベースのコード解析ツールはRTLを構造化された制御データフローグラフ(CDFG)に変換し、ツールレポートからボトルネックを注釈付けする。
- プロンプトジェネレータは注釈付きデータとコードスニペットからLLMsへターゲット編集を提案する文脈豊かなプロンプトを作成する。
- プロンプト主導のオフスプリング生成とそれに続く迅速な修正と形式検証によるLLM主導の変異。
- 島モデルMAP-Elites風のアーカイブを用いた進化アルゴリズム(Dual-Cycle LLM-Guided RTL Evolution)は、品質と多様性のバランスを取る。

実験結果
リサーチクエスチョン
- RQ1リポジトリレベルのRTL進化は人間の介入なしに機能的挙動を保存しつつPPAを改善できるか?
- RQ2ツールチェーンのフィードバックを活用する閉ループLLMガイドフレームワークは、ファイル間・リポジトリ規模のRTL最適化を効果的に可能にするか?
- RQ3多様なRTLリポジトリでPPA改善に影響を与える実用的な利得と設計特性は何か?
- RQ4オープンソースツールチェーンと商用ツールチェーンで提案ベンチマークとフレームワークの性能はどう異なるか?
主な発見
- フレームワークはオープンソースツールを用いた全ベンチマーク設計でPPA指標を低減し、DeepSeek-v3を用いた平均ADP削減を10.50%達成。
- 遅延削減は面積削減を上回り、オープンソースツール実験で幾何平均遅延低下7.92%、面積低下2.80%。
- グラフベースのコード解析機により制御集約設計(例:hsm、mem_ctrl、sdc_ctrl、simple_cpu、risc)で顕著なタイミング改善が生じた。
- 商用ツールチェーンでは全体的な改善幅は小さくなる(幾何平均ADP削減1.77%)が、例えばaudioでの遅延削減10.61%、hsmでの面積削減536.77 μm^2といった非自明なRTL進化の利得を示す。
- LLMsは全体的なアーキテクチャ再設計よりもローカルで合成に適した最適化(コーディングスタイル、ロジックフラット化、状態機械のエンコーディング)を適用しがちであり、大規模なグローバルリファクタリングの現状の限界を示す。
- このフレームワークは閉ループ・クロスファイル設定で動作し、人間の介入なしにリポジトリレベルの機能保存RTL最適化が実現可能であることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。