QUICK REVIEW

[論文レビュー] LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation

Zixi Zhang, Szekely, Balint|arXiv (Cornell University)|Oct 6, 2023

VLSI and Analog Circuit Testing被引用数 9

ひとこと要約

本論文は、プロンプトを用いたLLMsを利用してハードウェアのテスト刺激を生成するベンチマークフレームワークであるLLM4DVを提案し、3つのDUTモジュールで評価、単純な設計に対して有望なカバレッジを示すが、CPU全体規模では成果が限定的であることを示す。

ABSTRACT

Hardware design verification (DV) is a process that checks the functional equivalence of a hardware design against its specifications, improving hardware reliability and robustness. A key task in the DV process is the test stimuli generation, which creates a set of conditions or inputs for testing. These test conditions are often complex and specific to the given hardware design, requiring substantial human engineering effort to optimize. We seek a solution of automated and efficient testing for arbitrary hardware designs that takes advantage of large language models (LLMs). LLMs have already shown promising results for improving hardware design automation, but remain under-explored for hardware DV. In this paper, we propose an open-source benchmarking framework named LLM4DV that efficiently orchestrates LLMs for automated hardware test stimuli generation. Our analysis evaluates six different LLMs involving six prompting improvements over eight hardware designs and provides insight for future work on LLMs development for efficient automated DV.

研究の動機と目的

LLMsを活用してテスト刺激を生成することで、ハードウェア設計検証における手作業を削減する。
設計検証タスクのための再利用可能なベンチマークフレームワーク（LLM4DV）を作成する。
LLM駆動のテスト刺激生成を改善するためのプロンプトエンジニアリング手法を推進する。
研究者がLLMベースのDVを試せるよう、オープンソースのDUTモジュールとフレームワークを提供する。

提案手法

DUTとカバレッジモニターと相互作用する刺激生成エージェントを設計する。
システムメッセージ、初期クエリと反復的クエリを含む Coverage-Feedback Template を開発する。
欠落ビン採取、最良の反復メッセージ採取、対話再開、最良の反復メッセージバッファリセットの4つのプロンプト改善を提案する。
固定トークン予算内で stimuli を生成するために GPT-3.5-turbo-0613（および Llama 2 でのアブレーション）を使用する。
従来の制約付きランダムテスト（CRT）と比較して評価する：3つのDUTs: Primitive Data Prefetcher Core、Ibex Instruction Decoder、Ibex CPU。

実験結果

リサーチクエスチョン

RQ1LLMベースの Stimulus Generation Agent は CRT と比較してハードウェアDUTで高いカバレッジを達成できるか？
RQ2どのプロンプト戦略がDVタスクでカバレッジビンを狙う際にLLMsを最も効果的に誘導するか？
RQ3タスクの複雑さは、異なるDUTに対するLLM駆動のテスト刺激の有効性にどう影響するか？
RQ4CPU全体規模の設計に対する刺激生成におけるLLMsの制約は何か？

主な発見

Config	DUT Module	Max coverage	Max coverage rate	Avg msg/trial	Stdev msg/trial
Random	Primitive Data Prefetcher Core	4	0.39%	-	-
A1	Primitive Data Prefetcher Core	987	95.45%	641	104.24
A2	Primitive Data Prefetcher Core	1023	98.94%	617.5	165.06
A3	Primitive Data Prefetcher Core	1007	97.39%	459.33	287.21
Random	Ibex CPU Instruction Decoder	1136	53.92%	-	-
B1	Ibex CPU Instruction Decoder	1695	80.45%	864	147.92
B2	Ibex CPU Instruction Decoder	1816	86.19%	844.25	127.94
Random	Ibex CPU	3	1.53%	-	-
C1	Ibex CPU	10	5.10%	42.49	11.74
C2	Ibex CPU	11	5.61%	45.72	16.17

LLM4DVは、例えばPrimitive Data Prefetcher Coreのような単純なDUTで高いカバレッジを達成できる：最適構成で98.94%に達する。
Ibex Instruction Decoder は最良の構成で86.19%のカバレッジを達成した。
全Ibex CPUでは、最良のセットアップで5.61%のカバレッジを達成したが、相対的にはCRTよりも依然として良い。
4つのプロンプト改善は性能に大きく影響し、いくつかのDUTでほぼ100%に近いカバレッジを達成する構成もある。
フレームワークとDUTをオープンソース化して、コミュニティの実験を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。