QUICK REVIEW
[논문 리뷰] MRAM Co-designed Processing-in-Memory CNN Accelerator for Mobile and IoT Applications
Baohua Sun, Daniel Liu|arXiv (Cornell University)|2018. 11. 26.
Advanced Memory and Neural Computing참고 문헌 5인용 수 24
한 줄 요약
이 논문은 22nm CMOS 공정으로 제작된 MRAM 공설계 기반의 처리-메모리 통합 CNN 가속기 아키텍처를 제안하며, 비휘발성 가중치 저장을 위해 SRAM 대신 스핀트랜스퍼 토크 MRAM을 사용하여 9.9 TOPS/W의 에너지 효율성을 달성하였다. 이 아키텍처는 단일 칩에서 이미지 및 음성 인식과 같은 여러 AI 모델을 동시에 추론할 수 있도록 하여, SRAM의 밀도 및 누설 전력 문제를 해결한다.
ABSTRACT
We designed a device for Convolution Neural Network applications with non-volatile MRAM memory and computing-in-memory co-designed architecture. It has been successfully fabricated using 22nm technology node CMOS Si process. More than 40MB MRAM density with 9.9TOPS/W are provided. It enables multiple models within one single chip for mobile and IoT device applications.
연구 동기 및 목표
- 모바일 및 IoT 애플리케이션에서 SRAM 기반 CNN 가속기의 전력 소모 및 메모리 밀도 제약을 해결한다.
- 외부 메모리 의존도를 제거하기 위해 칩 내부에 다수의 딥 러닝 모델 가중치를 지속적이고 비휘발성으로 저장할 수 있도록 한다.
- STT-MRAM와 처리-메모리 아키텍처를 공동 설계하여 초고효율 에너지 효율성(TOPS/W)을 달성한다.
- 단일 칩에서 동시에 여러 AI 워크로드(예: 얼굴 인식 및 음성 인식)를 실행할 수 있도록 한다.
- 실제 모바일 및 IoT 환경에 적합한 40MB 이상의 MRAM 밀도를 내장한 CNN 가속기의 실현 가능성을 입증한다.
제안 방법
- 비휘발성 필터 계수 저장을 위해 칩 내부에 STT-MRAM를 탑재한 22nm CMOS 기반의 CNN 매트릭스 처리 엔진(MPE)을 공동 설계하였다.
- 정밀도와 면적/전력 소모의 균형을 위해 모델 가중치에는 15비트 도메인 전용 부동소수점(DSFP)을, 활성화값에는 9비트 DSFP를 사용하였다.
- SRAM에서 데이터를, MRAM에서 가중치를 읽어들여 MAC 어레이에서 컨볼루션 연산을 수행하는 처리-메모리 아키텍처를 구현하였다.
- 계층적 메모리 계층을 도입: MRAM은 장기적 모델 저장을 위해, SRAM은 고대역폭 중간 활성화값을 위해 사용하였다.
- MRAM, SRAM, MAC 어레이 간의 데이터 흐름을 조율하기 위한 제어 유닛을 통합하고, 주기적 데이터 접근을 위해 클럭 스킴 회로를 적용하였다.
- STT-MRAM의 높은 내구성과 저누설 특성(25°C 시 5.5mW, 70°C 시 7.2mW)을 활용하여, SRAM(70°C 시 136mW) 대비 대기 전력 소모를 감소시켰다.
실험 결과
연구 질문
- RQ1STT-MRAM가 CNN 가속기에서 SRAM를 대체함으로써 메모리 밀도 향상과 누설 전력 감소를 동시에 달성하면서도 고성능 유지를 할 수 있는가?
- RQ2STT-MRAM와 공동 설계된 처리-메모리 CNN 가속기의 실현 가능한 에너지 효율성(TOPS/W)은 얼마인가?
- RQ3비휘발성 MRAM를 활용해 칩 내부에 지속적인 모델 저장을 구현함으로써 단일 칩에서 여러 AI 모델(예: 이미지 및 음성 인식)을 동시에 실행할 수 있는가?
- RQ4고온 환경에서 실리콘 칩에서의 MRAM 기반 가중치 저장소 전력 소모는 SRAM와 비교해 어떻게 되는가?
- RQ5제안된 아키텍처는 외부 메모리 없이도 앙상블 추론 또는 다중 모odal AI 워크로드를 단일 칩에서 지원할 수 있는가?
주요 결과
- 제작된 22nm MRAM 기반 CNN 가속기는 9.9 TOPS/W의 에너지 효율성을 달성하여 이전 SRAM 기반 기록(9.3 TOPS/W) 대비 6.5% 향상되었다.
- MRAM는 대기 전력에서 뚜렷한 우수성을 보였으며, 25°C 시 5.5mW, 70°C 시 7.2mW로, SRAM(각각 34.3mW 및 136mW) 대비 최대 80%까지 누설 전력 감소를 기록하였다.
- 칩 내부에 40MB 이상의 내장 MRAM 밀도를 확보하여 이전 SRAM 기반 CNN-DSA(9MB) 대비 4.5배 향상되었으며, 여러 모델의 칩 내 저장이 가능해졌다.
- 단일 칩에서 이미지 분류와 음성 인식의 동시 추론을 성공적으로 수행하여 다중 모델 처리 능력을 입증하였다.
- 12.5MHz 주파수에서 3×224×224 RGB 이미지를 35fps로 처리하여 실시간 모바일 및 IoT 응용에 적합한 성능을 확보하였다.
- 전력 분석 결과, MRAM 가중치 메모리는 총 칩 전력의 약 25%만 소비하였고, 나머지 75%는 계산 및 데이터 이동에 의해 소비되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.