[논문 리뷰] Epiphany-V: A 1024 processor 64-bit RISC System-On-Chip
이 논문은 16nm FinFET 공정 기술로 제작된 1024코어 64비트 RISC 시스템온칩인 Epiphany-V를 제시한다. 이는 64MB 내장 SRAM, 3개의 136비트 메esh 네트워크온칩, 1024개의 프로그래머블 I/O 핀을 탑재하고 있다. 이는 최신 기술 수준의 칩보다 80배 높은 프로세서 밀도를 달성했으며, 설계 비용은 업계 평균의 1/100으로 줄여, 고성능 계산(HPC) 및 임베디드 응용 분야에서 에너지 효율성과 비용 효율적인 다코어 설계의 돌파구를 보여준다.
This paper describes the design of a 1024-core processor chip in 16nm FinFet technology. The chip ("Epiphany-V") contains an array of 1024 64-bit RISC processors, 64MB of on-chip SRAM, three 136-bit wide mesh Networks-On-Chip, and 1024 programmable IO pins. The chip has taped out and is being manufactured by TSMC. This research was developed with funding from the Defense Advanced Research Projects Agency (DARPA). The views, opinions and/or findings expressed are those of the author and should not be interpreted as representing the official views or policies of the Department of Defense or the U.S. Government.
연구 동기 및 목표
- 딥 러닝, 자율 주행 차량, 인지 라디오와 같은 분야에서 에너지 효율적이고 고성능 컴퓨팅의 증가하는 수요를 해결하기 위해.
- 에너지 제약 환경에서 실용적인 고성능 컴퓨팅 구현을 가능하게 하기 위해 75 GFLOPS/W의 처리 효율성을 달성하기 위해.
- 일반적으로 2,000만 달러에서 10억 달러의 범위를 가지는 고성능 ASIC 설계 비용을 낮춰, 맞춤형 실리콘을 접근 가능하게 하기 위해.
- 세대 간 호환성이 보장되는 확장 가능하고 분산된 공유 메모리 다코어 아키텍처를 구현하기 위해.
- 매우 높은 실리콘 맞춤화를 통해 에너지 소비를 10~100배까지 줄이되, 설계 비용을 극적으로 낮춰 재정적 타당성을 유지하기 위해.
제안 방법
- 각 코어에 소프트웨어가 관리하는 스크래치패드 메모리가 탑재된 평탄한 캐시 없는 분산 공유 메모리 모델을 사용한 1024코어 64비트 RISC 프로세서 어레이를 구현하기 위해.
- 읽기, 내부 쓰기, 외부 쓰기 트래픽를 각각 위한 독립적인 3개의 136비트 폭의 2차원 메쉬 네트워크온칩(rmesh, cmesh, xmesh)을 사용하여 1.5사이클의 패킷 전송 지연을 달성하기 위해.
- 로컬 로드/스토어에 대해 강한 메모리 순서를, 원격 전송에 대해 약한 순서를 적용하여 성능과 정확성의 균형을 맞추기 위해.
- 세분화된 전력 관리를 가능하게 하고 동적 전력 소비를 줄이기 위해 2052개의 독립된 전력 도메인을 통합하기 위해.
- 설계를 가속화하고 인간 노동을 감소시키기 위해 자동화된 EDA 방법론을 포함한 모듈러하고 재사용 가능한 RTL 플로우를 설계하여, 단일 전담 설계자가 45억 트anz이터 칩을 완성할 수 있도록 하기 위해.
- 딥 러닝, 통신, 암호화에 최적화된 워크로드를 지침 수준에서 최적화하기 위해 맞춤형 명령어 세트 확장을 지원하기 위해.
실험 결과
연구 질문
- RQ116nm FinFET 공정에서 1024코어 64비트 RISC 프로세서가 75 GFLOPS/W의 에너지 효율을 달성할 수 있는가?
- RQ2단순화되고 자동화된 설계 플로우를 사용해 고성능 ASIC의 설계 비용을 얼마나 줄일 수 있는가?
- RQ3소프트웨어가 관리하는 스크래치패드 메모리가 탑재된 평탄한 분산 공유 메모리 모델이 전통적인 캐시 계층에 비해 면적, 전력, 성능 측면에서 어떻게 비교되는가?
- RQ4메쉬 NoC와 16nm 공정을 사용할 경우, 다코어 SoC에서 얻을 수 있는 최대 프로세서 밀도와 메모리 밀도는 얼마인가?
- RQ5설계 플로우가 업계 표준보다 100배 더 효율적인 경우, 단일 전담 설계자가 45억 트랜지스터 칩을 완성할 수 있는가?
주요 결과
- Epiphany-V는 8.75노드/mm²의 프로세서 밀도를 달성하여, 다음으로 우수한 칩(P100, 0.09노드/mm²)보다 80배 높은 성능을 보였다.
- 메모리 밀도는 0.54MB RAM/mm²로, P100, KNL, Broadwell과 같은 최신 기술 칩보다 3.6배에서 15.8배 높았다.
- 단지 10명의 팀으로 설계가 완료되어 설계 효율성이 시간당 90만 트랜지스터이며, RTL에서 GDS까지의 플로우 속도는 시간당 1.5억 트랜지스터로, 업계 평균 대비 100배의 설계 비용 절감을 입증했다.
- 멀티칩 구성에서 최대 10억 개의 프로세서와 총 1페타바이트의 메모리를 지원하며, 이전 세대의 Epiphany와의 이진 호환성을 유지한다.
- 피크 실리콘 효율성은 3,800만 트랜지스터/mm²로, 당시 기준으로 어떤 HPC 칩보다도 높은 수치를 기록했다.
- Epiphany-V의 정규화된 GFLOPS/mm²는 8.55로, P100(7.7), KNL(5.27), Broadwell(2.85)을 모두 초월하여 면적 효율성 측면에서 열등한 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.