QUICK REVIEW

[논문 리뷰] MRAM Co-designed Processing-in-Memory CNN Accelerator for Mobile and IoT Applications

Baohua Sun, Daniel Liu|arXiv (Cornell University)|2018. 11. 26.

Advanced Memory and Neural Computing참고 문헌 5인용 수 24

한 줄 요약

이 논문은 22nm CMOS 공정으로 제작된 MRAM 공설계 기반의 처리-메모리 통합 CNN 가속기 아키텍처를 제안하며, 비휘발성 가중치 저장을 위해 SRAM 대신 스핀트랜스퍼 토크 MRAM을 사용하여 9.9 TOPS/W의 에너지 효율성을 달성하였다. 이 아키텍처는 단일 칩에서 이미지 및 음성 인식과 같은 여러 AI 모델을 동시에 추론할 수 있도록 하여, SRAM의 밀도 및 누설 전력 문제를 해결한다.

ABSTRACT

We designed a device for Convolution Neural Network applications with non-volatile MRAM memory and computing-in-memory co-designed architecture. It has been successfully fabricated using 22nm technology node CMOS Si process. More than 40MB MRAM density with 9.9TOPS/W are provided. It enables multiple models within one single chip for mobile and IoT device applications.

연구 동기 및 목표

모바일 및 IoT 애플리케이션에서 SRAM 기반 CNN 가속기의 전력 소모 및 메모리 밀도 제약을 해결한다.
외부 메모리 의존도를 제거하기 위해 칩 내부에 다수의 딥 러닝 모델 가중치를 지속적이고 비휘발성으로 저장할 수 있도록 한다.
STT-MRAM와 처리-메모리 아키텍처를 공동 설계하여 초고효율 에너지 효율성(TOPS/W)을 달성한다.
단일 칩에서 동시에 여러 AI 워크로드(예: 얼굴 인식 및 음성 인식)를 실행할 수 있도록 한다.
실제 모바일 및 IoT 환경에 적합한 40MB 이상의 MRAM 밀도를 내장한 CNN 가속기의 실현 가능성을 입증한다.

제안 방법

비휘발성 필터 계수 저장을 위해 칩 내부에 STT-MRAM를 탑재한 22nm CMOS 기반의 CNN 매트릭스 처리 엔진(MPE)을 공동 설계하였다.
정밀도와 면적/전력 소모의 균형을 위해 모델 가중치에는 15비트 도메인 전용 부동소수점(DSFP)을, 활성화값에는 9비트 DSFP를 사용하였다.
SRAM에서 데이터를, MRAM에서 가중치를 읽어들여 MAC 어레이에서 컨볼루션 연산을 수행하는 처리-메모리 아키텍처를 구현하였다.
계층적 메모리 계층을 도입: MRAM은 장기적 모델 저장을 위해, SRAM은 고대역폭 중간 활성화값을 위해 사용하였다.
MRAM, SRAM, MAC 어레이 간의 데이터 흐름을 조율하기 위한 제어 유닛을 통합하고, 주기적 데이터 접근을 위해 클럭 스킴 회로를 적용하였다.
STT-MRAM의 높은 내구성과 저누설 특성(25°C 시 5.5mW, 70°C 시 7.2mW)을 활용하여, SRAM(70°C 시 136mW) 대비 대기 전력 소모를 감소시켰다.

실험 결과

연구 질문

RQ1STT-MRAM가 CNN 가속기에서 SRAM를 대체함으로써 메모리 밀도 향상과 누설 전력 감소를 동시에 달성하면서도 고성능 유지를 할 수 있는가?
RQ2STT-MRAM와 공동 설계된 처리-메모리 CNN 가속기의 실현 가능한 에너지 효율성(TOPS/W)은 얼마인가?
RQ3비휘발성 MRAM를 활용해 칩 내부에 지속적인 모델 저장을 구현함으로써 단일 칩에서 여러 AI 모델(예: 이미지 및 음성 인식)을 동시에 실행할 수 있는가?
RQ4고온 환경에서 실리콘 칩에서의 MRAM 기반 가중치 저장소 전력 소모는 SRAM와 비교해 어떻게 되는가?
RQ5제안된 아키텍처는 외부 메모리 없이도 앙상블 추론 또는 다중 모odal AI 워크로드를 단일 칩에서 지원할 수 있는가?

주요 결과

제작된 22nm MRAM 기반 CNN 가속기는 9.9 TOPS/W의 에너지 효율성을 달성하여 이전 SRAM 기반 기록(9.3 TOPS/W) 대비 6.5% 향상되었다.
MRAM는 대기 전력에서 뚜렷한 우수성을 보였으며, 25°C 시 5.5mW, 70°C 시 7.2mW로, SRAM(각각 34.3mW 및 136mW) 대비 최대 80%까지 누설 전력 감소를 기록하였다.
칩 내부에 40MB 이상의 내장 MRAM 밀도를 확보하여 이전 SRAM 기반 CNN-DSA(9MB) 대비 4.5배 향상되었으며, 여러 모델의 칩 내 저장이 가능해졌다.
단일 칩에서 이미지 분류와 음성 인식의 동시 추론을 성공적으로 수행하여 다중 모델 처리 능력을 입증하였다.
12.5MHz 주파수에서 3×224×224 RGB 이미지를 35fps로 처리하여 실시간 모바일 및 IoT 응용에 적합한 성능을 확보하였다.
전력 분석 결과, MRAM 가중치 메모리는 총 칩 전력의 약 25%만 소비하였고, 나머지 75%는 계산 및 데이터 이동에 의해 소비되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.