Skip to main content
QUICK REVIEW

[论文解读] AssertLLM: Generating and Evaluating Hardware Verification Assertions from Design Specifications via Multi-LLMs

Wenji Fang, Mengming Li|arXiv (Cornell University)|Feb 1, 2024
Software Testing and Debugging Techniques被引用 8
一句话总结

AssertLLM 自动从完整设计规格使用三种专门的 LLM 自动生成 SystemVerilog Assertions,并将其与黄金 RTL 设计进行比较评估,在完整设计上达到 89% 的语法和功能准确性。

ABSTRACT

Assertion-based verification (ABV) is a critical method for ensuring design circuits comply with their architectural specifications, which are typically described in natural language. This process often requires human interpretation by verification engineers to convert these specifications into functional verification assertions. Existing methods for generating assertions from natural language specifications are limited to sentences extracted by engineers, discouraging its practical application. In this work, we present AssertLLM, an automatic assertion generation framework that processes complete specification files. AssertLLM breaks down the complex task into three phases, incorporating three customized Large Language Models (LLMs) for extracting structural specifications, mapping signal definitions, and generating assertions. Our evaluation of AssertLLM on a full design, encompassing 23 I/O signals, demonstrates that 89\% of the generated assertions are both syntactically and functionally accurate.

研究动机与目标

  • 从完整的自然语言设计规格(RTL 之前)自动生成断言,以支持硬件验证中的基于断言的验证(ABV)。
  • 将任务分解为提取、信号映射和 SVA 生成,使用三种专门的 LLM。
  • 提供跨设计评估 SVA 生成质量的开源基准和评估方法。

提出的方法

  • 使用三种定制化的 LLM:SPEC Analyzer 从完整规格中提取结构化信息;Signal Mapper 将规格信号与 HDL 声明对齐;SVA Generator 使用检索增强生成(RAG)与领域知识创建 SVA(包括宽度、连通性、功能)。
  • 正式评估使用黄金 RTL 设计和模型检查(FPV)将 SVA 分类为语法正确且通过 FPV,按信号和设计衡量准确性。
  • 提供一个包含 20 个设计(规格、信号定义、黄金 RTL)的开源基准,用于从自然语言规格评估 SVA 生成。

实验结果

研究问题

  • RQ1完整的自然语言规格是否可以自动转换为针对每个架构信号的全面 SVAs?
  • RQ2在与黄金 RTL 实现比较评估时,LLM 生成的 SVA 在语法和功能上有多准确?
  • RQ3在从无结构规范生成 SVA 时,使用多 LLM、带有 RAG 的方法是否优于单一 LLM 基线?
  • RQ4该框架能否在除所测试的 I2C 设计之外的多种设计类型上泛化?

主要发现

  • AssertLLM 在 I2C 设计中为 23 个信号生成了 56 个 SVA,其中包括 23 个宽度(width)、16 个连通性(connectivity)和 17 个功能(function) SVA。
  • 在黄金 RTL 设计上评估时,生成的 SVA 中有 89% 在语法和功能上均正确。
  • 与 GPT-4 基线相比,结合 SPEC Analyzer、Signal Mapper、SVA Generator 以及 RAG 的定制方法显著提升 SVA 质量并减少语法错误。
  • GPT-3.5 无法处理多模态的全规格;在没有专门流程的 GPT-4 产生的 SVA 质量较低。
  • 该基准使跨多种设计类型的 SVA 生成质量评估成为可能,并支持未来更便于验证的规格编写。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。