QUICK REVIEW

[논문 리뷰] RTLLM: An Open-Source Benchmark for Design RTL Generation with Large Language Model

Yao Lu, Shang Liu|arXiv (Cornell University)|2023. 08. 10.

Ferroelectric and Negative Capacitance Devices인용 수 12

한 줄 요약

RTLLM은 자연어로부터 RTL 설계를 30개 생성 작업의 오픈 소스 벤치마크를 제공하며, LLM 성능을 향상시키는 자체 계획 프롬프트 기법을 통해 구문, 기능성 및 설계 품질 평가를 가능하게 한다.

ABSTRACT

Inspired by the recent success of large language models (LLMs) like ChatGPT, researchers start to explore the adoption of LLMs for agile hardware design, such as generating design RTL based on natural-language instructions. However, in existing works, their target designs are all relatively simple and in a small scale, and proposed by the authors themselves, making a fair comparison among different LLM solutions challenging. In addition, many prior works only focus on the design correctness, without evaluating the design qualities of generated design RTL. In this work, we propose an open-source benchmark named RTLLM, for generating design RTL with natural language instructions. To systematically evaluate the auto-generated design RTL, we summarized three progressive goals, named syntax goal, functionality goal, and design quality goal. This benchmark can automatically provide a quantitative evaluation of any given LLM-based solution. Furthermore, we propose an easy-to-use yet surprisingly effective prompt engineering technique named self-planning, which proves to significantly boost the performance of GPT-3.5 in our proposed benchmark.

연구 동기 및 목표

구문, 기능성, 설계 품질을 포괄하는 자연어로부터 RTL 생성을 위한 공정하고 확장 가능한 벤치마크를 제공한다.
ground-truth 손으로 제작된 RTL과 대조하여 어떤 LLM 기반 RTL 생성 솔루션의 자동 평가를 가능하게 한다.
RTL 코드 생성에서 LLM 성능을 향상시키기 위해 자체 계획 프롬프트 엔지니어링을 도입한다.

제안 방법

구문, 기능성, 설계 품질이라는 세 가지 점진적인 평가 목표를 정의한다.
ground-truth VH, 테스트벤치, HDL과 함께 30개의 다양한 RTL 설계를 구성하고 설명 L 파일을 제공한다.
생성된 RTL을 합성하고 시뮬레이션하며 참조와 대조하기 위해 자동화 도구를 사용한다.
추론 단계와 구문 안전성 점검을 포함하는 두 단계 프롬프트 기법으로서 자체 계획을 제안한다.
다섯 개 LLM(GPT-3.5, GPT-4, Thakur et al. 2023, StarCoder, 그리고 self-planning을 포함한 GPT-3.5/4)을 평가한다.
합성 후 설계 품질(면적, 전력, 타이밍)에 대한 ground-truth 기준선과 자동 지표를 제공한다.

실험 결과

연구 질문

RQ1표준화된 벤치마크 하에서 LLM이 자연어 설명으로부터 Verilog/VHDL/Chisel RTL을 얼마나 정확하게 생성하는가?
RQ2프롬프트 엔지니어링, 특히 self-planning이 생성된 RTL의 구문 정확성과 기능적 정확성을 얼마나 개선할 수 있는가?
RQ3합성 지표(PPA)와 기능적 타당성 측면에서 LLM이 생성한 설계가 인간이 작성한 참고 설계와 어떻게 비교되는가?
RQ4다양한 설계 유형과 규모에 걸쳐 어떤 LLM과 프롬프트 전략이 최고의 전반적인 RTL 설계 품질을 산출하는가?

주요 결과

GPT-4가 평가된 모델들 중 가장 높은 구문 정확도(81%)와 기능성 정확도(15/30)를 달성했다.
GPT-3.5와 self-planning은 일반 GPT-3.5보다 실질적으로 향상되어(73% 구문, 14/30 기능) GPT-4의 성능에 근접한다.
자체 계획은 계획 없이 GPT-3.5에 비해 여러 설계에서 RTL 생성 정확도를 크게 향상시킨다.
학계 모델(Thakur et al., StarCoder)은 RTLLM 하에서 구문과 기능성 모두에서 상용 LLM보다 낮은 성능을 보인다.
이 벤치마크는 30개의 다양한 RTL 과제에 걸쳐 ground-truth 설계와 구문, 기능성, 설계 품질의 자동 평가를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.