[논문 리뷰] Chip Placement with Deep Reinforcement Learning
본 논문은 칩 배치를 강화 학습 문제로 형식화하고, 과거 넷리스트에서 학습하는 도메인 적응 정책을 사용해 보지 않은 블록에 대해 빠르게 고품질의 배치를 생성하며, 6시간 이내에 초인적이거나 이에 필적하는 결과를 달성한다.
In this work, we present a learning-based approach to chip placement, one of the most complex and time-consuming stages of the chip design process. Unlike prior methods, our approach has the ability to learn from past experience and improve over time. In particular, as we train over a greater number of chip blocks, our method becomes better at rapidly generating optimized placements for previously unseen chip blocks. To achieve these results, we pose placement as a Reinforcement Learning (RL) problem and train an agent to place the nodes of a chip netlist onto a chip canvas. To enable our RL policy to generalize to unseen blocks, we ground representation learning in the supervised task of predicting placement quality. By designing a neural architecture that can accurately predict reward across a wide variety of netlists and their placements, we are able to generate rich feature embeddings of the input netlists. We then use this architecture as the encoder of our policy and value networks to enable transfer learning. Our objective is to minimize PPA (power, performance, and area), and we show that, in under 6 hours, our method can generate placements that are superhuman or comparable on modern accelerator netlists, whereas existing baselines require human experts in the loop and take several weeks.
연구 동기 및 목표
- 밀도 및 배선 제약을 만족시키면서 전력, 성능, 면적(PPA)을 최소화한다.
- 칩 블록이 늘어나도 정책이 개선되고, 보이지 않는 네트리스트에 일반화될 수 있도록 전이 학습을 가능하게 한다.
- 일반화를 향상시키기 위한 감독된 보상 예측 과제를 통한 기저 상태 표현 학습.
- 대형 넷리스트에 대해 빠르게 고품질 배치를 달성함으로써 인간 전문가에 대한 의존도를 줄인다.
제안 방법
- 매크로를 격자 위에 순차적으로 배치하는 마르코프 결정 프로세스로 칩 배치를 형식화한다.
- 밀도 제약하에 프록시 와이어링 길이와 혼잡도에 기반한 보상을 최대화하도록 PPO로 학습된 정책 네트워크를 사용한다.
- 정렬 보상을 예측하는 감독된 그래프 신경망을 이용한 기저 표현 학습으로 전이 학습을 위한 정책 인코더를 가능하게 한다.
- 칩 캔버스를 m x n 격자로 이산화하고 불가능한 배치를 제거하기 위하여 단단한 밀도 제약(max_density = 0.6)을 강제한다.
- RL 에이전트로 먼저 매크로를 배치하고 표준 셀은 포스-디렉티드 방법으로 마무리한다; 빠르고 근사적인 보상을 통해 평가한다.
- 다수의 넷리스트에서 프리 트레이닝하고 보이지 않는 블록에 대해 파인튜닝하는 도메인 적응을 활용하여 더 빠른 수렴과 더 나은 결과를 달성한다.
실험 결과
연구 질문
- RQ1도메인 적응을 통해 학습된 정책이 보이지 않는 칩 넷리스트에 일반화될 수 있는가?
- RQ2다양한 넷리스트에 대한 프리트레이닝이 새로운 블록에 대해 제로샷 또는 빠른 파인튜닝 배치를 가능하게 하는가?
- RQ3PPA, 밀도 및 배선 혼잡 측면에서 RL 기반 접근법이 최첨단 베이스라인과 어떻게 비교되는가?
주요 결과
- 본 방법은 실제 가속기 넷리스트에서 6시간 이내에 초인적이거나 이에 필적하는 배치 결과를 달성한다.
- 사전 학습된 정책을 사용하여 파인튜닝 없이 보이지 않는 넷리스트에 대한 제로샷 배치를 1초도 채 되지 않는 시간에 생성할 수 있다.
- 사전 학습된 정책을 파인튜닝하면 수렴 시간이 단축되고 처음부터 학습된 정책과 비교해 최종 비용이 개선된다.
- 도메인 적응은 처음부터 학습하는 것에 비해 학습 시간을 약 8배 단축시킨다.
- 사전 학습된 정책은 블록 전반에 걸쳐 처음부터 학습된 정책보다 일관되게 우수하다.
- 배치는 전문가 직관과 시각적으로 일치하며 표준 셀을 중앙에 배치하고 매크로를 그 주위에 배치한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.