QUICK REVIEW

[论文解读] Learning to Design Circuits

Hanrui Wang, Jiacheng Yang|arXiv (Cornell University)|Dec 5, 2018

Advancements in Semiconductor Devices and Circuit Design参考文献 11被引用 31

一句话总结

该论文提出了一种名为L2DC（Learning to Design Circuits）的强化学习框架，可无需先验知识或大规模数据集，自主优化模拟IC参数。通过迭代采样晶体管参数、仿真电路性能，并奖励向规格目标的进展，L2DC的样本效率比基于网格搜索的人工设计高出250倍，且在相同运行时间约束下优于贝叶斯优化。

ABSTRACT

Analog IC design relies on human experts to search for parameters that satisfy circuit specifications with their experience and intuitions, which is highly labor intensive, time consuming and suboptimal. Machine learning is a promising tool to automate this process. However, supervised learning is difficult for this task due to the low availability of training data: 1) Circuit simulation is slow, thus generating large-scale dataset is time-consuming; 2) Most circuit designs are propitiatory IPs within individual IC companies, making it expensive to collect large-scale datasets. We propose Learning to Design Circuits (L2DC) to leverage reinforcement learning that learns to efficiently generate new circuits data and to optimize circuits. We fix the schematic, and optimize the parameters of the transistors automatically by training an RL agent with no prior knowledge about optimizing circuits. After iteratively getting observations, generating a new set of transistor parameters, getting a reward, and adjusting the model, L2DC is able to optimize circuits. We evaluate L2DC on two transimpedance amplifiers. Trained for a day, our RL agent can achieve comparable or better performance than human experts trained for a quarter. It first learns to meet hard-constraints (eg. gain, bandwidth), and then learns to optimize good-to-have targets (eg. area, power). Compared with grid search-aided human design, L2DC can achieve $\mathbf{250}\boldsymbol{ imes}$ higher sample efficiency with comparable performance. Under the same runtime constraint, the performance of L2DC is also better than Bayesian Optimization.

研究动机与目标

为解决模拟IC设计中因严重依赖专家直觉和手动参数调优而导致的时间和人力成本过高的挑战。
克服由于电路仿真速度慢及专有知识产权限制，导致监督学习可用标注训练数据稀缺的问题。
开发一种自动化、数据高效的优化方法，通过强化学习学习最优电路参数，而无需依赖先验领域规则。
相比传统方法（如网格搜索、随机搜索和贝叶斯优化），提升样本效率和优化性能。
在不同电路类型（包括两级和三级跨阻放大器）上展示泛化能力。

提出的方法

L2DC采用强化学习智能体，与电路仿真环境（如Hspice/Spectre）交互，生成新的晶体管参数组合。
智能体观察来自仿真输出的电路状态，包括直流工作点、交流幅频/相频响应以及晶体管工作模式。
基于归一化性能指标（如增益、带宽、功耗、面积）定义密集奖励函数，通过基于比例的满足度评分强制执行硬性约束。
采用序列到序列模型的演员-评论家框架，生成参数向量，实现在高维设计空间中的结构化探索。
以DDPG算法作为强化学习主干，支持连续动作空间优化，结合经验回放和目标网络。
训练过程在仿真、奖励计算和策略更新之间交替进行，使智能体能够学习分层优化策略。

实验结果

研究问题

RQ1强化学习能否在不依赖大规模标注数据集的情况下，有效应用于模拟IC设计优化？
RQ2在多目标设置下，强化学习智能体能否学会优先优化硬性约束（如增益、带宽），再优化软性指标（如功耗、面积）？
RQ3在相同运行时间约束下，基于强化学习的设计方法相比人工引导的网格搜索和贝叶斯优化，其样本效率如何？
RQ4强化学习智能体能否在不同模拟电路架构（如两级和三级跨阻放大器）之间实现泛化？
RQ5强化学习智能体是否发展出策略性行为，例如先提升硬性约束，再优化次要目标？

主要发现

L2DC在仅使用50,000次仿真的情况下，实现了与人工专家设计的两级跨阻放大器97.143%的带宽性能，而人工专家则使用了1.29 million次仿真。
与基于网格搜索的人工设计相比，该强化学习智能体实现了250倍更高的样本效率，在显著更少的仿真次数下达到相当或更优的性能。
在相同的30小时运行时间约束下，L2DC（使用DDPG）满足了所有硬性约束（噪声、增益、峰值、功耗），并实现了5.78 GHz的带宽，而随机搜索和贝叶斯优化均未能满足噪声约束。
学习曲线显示，智能体首先提升功耗和带宽以满足硬性约束，随后降低功耗和面积，同时保持性能，表明其具备策略性优化行为。
在三级跨阻放大器中，智能体成功满足了所有硬性约束并实现了高性能，证明了其在不同电路复杂度下的泛化能力。
在相同运行时间下，L2DC在约束满足度和最终性能方面均优于贝叶斯优化，凸显了其效率优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。