[論文レビュー] Chip Placement with Deep Reinforcement Learning
論文はチップ配置を強化学習問題として定式化し、過去のネットリストから学習するドメイン適応ポリシーを用いて見知らぬブロックの高品質な配置を迅速に生成し、超人レベルまたは同等の結果を6時間未満で達成する。
In this work, we present a learning-based approach to chip placement, one of the most complex and time-consuming stages of the chip design process. Unlike prior methods, our approach has the ability to learn from past experience and improve over time. In particular, as we train over a greater number of chip blocks, our method becomes better at rapidly generating optimized placements for previously unseen chip blocks. To achieve these results, we pose placement as a Reinforcement Learning (RL) problem and train an agent to place the nodes of a chip netlist onto a chip canvas. To enable our RL policy to generalize to unseen blocks, we ground representation learning in the supervised task of predicting placement quality. By designing a neural architecture that can accurately predict reward across a wide variety of netlists and their placements, we are able to generate rich feature embeddings of the input netlists. We then use this architecture as the encoder of our policy and value networks to enable transfer learning. Our objective is to minimize PPA (power, performance, and area), and we show that, in under 6 hours, our method can generate placements that are superhuman or comparable on modern accelerator netlists, whereas existing baselines require human experts in the loop and take several weeks.
研究の動機と目的
- 密度と配線制約を満たしつつ、電力・性能・面積(PPA)を最小化する。
- ポリシーがより多くのチップブロックで改善し、見たことのないネットリストへ一般化できるように転移学習を可能にする。
- 一般化を高めるために、教師付き報酬予測タスクによる基底状態表現学習。
- 大規模なネットリストに対して迅速に高品質な配置を実現することで人間の専門家への依存を減らす。
提案手法
- マクロをグリッド上に順次配置するマルコフ決定過程としてチップ配置を定式化する。
- 密度制約の下で代理配線長と混雑に基づく報酬を最大化するように、PPOを用いて訓練したポリシーネットワークを使用する。
- 報酬配置を予測する教師ありグラフニューラルネットワークを用いた基底表現学習により、転移学習のためのポリシーエンコーダを有効にする。
- チップキャンバスを m×n グリッドに離散化し、硬い密度制約(max_density = 0.6)を課して実現不能な配置を絞り込む。
- RLエージェントを用いてまずマクロを配置し、標準セルにはフォース・ダイレクテッド法を適用して完了する。高速で近似的な報酬で評価する。
- 複数のネットリストで事前訓練し見たことのないブロックに適応させることでドメイン適応を行い、収束を早め、より良い結果を得る。
実験結果
リサーチクエスチョン
- RQ1ドメイン適応を通じて学習済みポリシーが見たことのないチップのネットリストへ一般化できるか。
- RQ2多様なネットリストでの事前訓練は新しいブロックに対してゼロショットまたは迅速なファインチューニングによる配置を可能にするか。
- RQ3PPA、密度、配線混雑の点でRLベースのアプローチが最先端のベースラインとどう比較されるか。
主な発見
- 本手法は実際のアクセラレータネットリストに対して6時間未満で人間を凌駕するか、同等の配置結果を達成する。
- 事前訓練済みのポリシーを使用しファインチューニングなしで、見たことのないネットリストに対するゼロショット配置を1秒未満で生成できる。
- 事前訓練済みポリシーをファインチューニングすると、ゼロから訓練されたポリシーと比べて収束時間を短縮し、最終コストを改善する。
- ドメイン適応により、ゼロから訓練する場合と比べて約8倍の訓練時間を削減する。
- 事前訓練済みポリシーは、ブロック全体を通じて一貫してゼロから訓練したポリシーを上回る。
- 配置は専門家の直感と視覚的に一致し、標準セルを中央に配置しマクロをその周りに配置する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。