QUICK REVIEW

[論文レビュー] QiMeng-CodeV-SVA: Training Specialized LLMs for Hardware Assertion Generation via RTL-Grounded Bidirectional Data Synthesis

Yutong Wu, Chenrui Cao|arXiv (Cornell University)|Mar 15, 2026

Formal Methods in Verification被引用数 0

ひとこと要約

本論文は、CodeV-SVAを提案する。データ合成と微調整パイプラインで、実RTLを基盤としたデータを用い双方向選択と形式検証チェックにより自然言語検証特性をSystemVerilog Assertions (SVA)へ翻訳する特化型LLMを訓練する。

ABSTRACT

SystemVerilog Assertions (SVAs) are crucial for hardware verification. Recent studies leverage general-purpose LLMs to translate natural language properties to SVAs (NL2SVA), but they perform poorly due to limited data. We propose a data synthesis framework to tackle two challenges: the scarcity of high-quality real-world SVA corpora and the lack of reliable methods to determine NL-SVA semantic equivalence. For the former, large-scale open-source RTLs are used to guide LLMs to generate real-world SVAs; for the latter, bidirectional translation serves as a data selection method. With the synthesized data, we train CodeV-SVA, a series of SVA generation models. Notably, CodeV-SVA-14B achieves 75.8% on NL2SVA-Human and 84.0% on NL2SVA-Machine in Func.@1, matching or exceeding advanced LLMs like GPT-5 and DeepSeek-R1.

研究の動機と目的

NL2SVAタスクの高品質なSVAデータの不足を解消する。
RTL設計をオープンソースとして活用し、RTL意味論に guided された大規模で現実的なSVAデータセットを合成する。
NL-SVAデータの双方向選択を実装し、NLとSVAを整合させる。
データ品質を refinement、reasoning augmentation、専門家ガイドによって向上させる。
微調整されたCodeV-SVAモデルがNL2SVAベンチマークで汎用LLMを上回りつつ、デプロイコストを抑制できることを示す。

提案手法

大規模なオープンソースRTLコーパス（CodeV）を整備し、時計・リセット信号を含む設計を抽出して時系列特性を強調する。
一般目的LLMを用いてRTL設計からNL特性とSVAを生成し、形式検証ツール（JasperGold）でSVAsをフィルタする。
双方向翻訳を適用：SVAをNLへ翻訳し再度SVAへ翻訳して意味的整合性を確保し、同値ペアのみを残す。
専門家の判断、 weaker-LMMフィルタリング、reasoning-trajectory拡張でデータを refined し、訓練効果を高める。
synthesized NL2SVAデータセットに対する supervised fine-tuning を通じて、オープンソースの基盤モデル（Qwen3-8B/14B）を CodeV-SVAモデルへ微調整する。

実験結果

リサーチクエスチョン

RQ1RTL-grounded な合成は、オープンソースSVAsのみを用いる場合よりも高品質な NL2SVA データを生み出せるか。
RQ2双方向のNL-SVA翻訳は自然言語特性とSVAの意味整合性を改善するか。
RQ3データ refinement の要素（reasoning trajectory、難易度フィルタリング、LLMをジャッジとして用いること）がNL2SVAの性能に与える影響は。
RQ4CodeV-SVAモデルはNL2SVAベンチマークで汎用LLMや特化RTLモデルと比較してどうか。
RQ5CodeV-SVAパイプラインはエンドツーエンドのハードウェア検証ワークフローで有効か。

主な発見

CodeV-SVA-14B は Func.@1 で NL2SVA-Human 75.8%、NL2SVA-Machine 84.0% を達成し、FVEvalにおける GPT-5 および DeepSeek-R1 と同等またはそれを上回る指標を達成。
CodeV-SVA-14B は教師モデル（DeepSeek-R1-671B）および GPT-5 を functional-coverage 指標で上回り、RTL-groundedデータで訓練したことによるコスト効率の良さを示す。
CodeV-SVA-8B および CodeV-SVA-14B は NL2SVA-Machine のFunc.@32における前例の上限を超え、より難易度の高い検証タスクに対する拡張性を示唆。
アブレーション研究は reason-trajectory augmentation が明確な性能向上をもたらすことを示し、データ-refinement の中では bidirectional data selection が最大の利得をもたらす（例：NL2SVA-Human Func.@1 で 12.3% の改善）。
synthesized NL-SVAデータで訓練する方が open-source SVAデータやルールベースの書換で訓練するよりも大幅に優れており、データセットの質が量より重要であることを強調。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。