QUICK REVIEW

[논문 리뷰] F1: A Fast and Programmable Accelerator for Fully Homomorphic Encryption (Extended Version)

Axel Feldmann, Nikola Samardzic|arXiv (Cornell University)|2021. 09. 11.

Cryptography and Data Security참고 문헌 66인용 수 25

한 줄 요약

F1은 높은 처리량으로 완전한 FHE 프로그램을 실행하는 최초의 프로그래머블 FHE 가속기로, 소프트웨어를 크게 능가하고 실시간 보안 클라우드 추론을 가능하게 한다.

ABSTRACT

Fully Homomorphic Encryption (FHE) allows computing on encrypted data, enabling secure offloading of computation to untrusted serves. Though it provides ideal security, FHE is expensive when executed in software, 4 to 5 orders of magnitude slower than computing on unencrypted data. These overheads are a major barrier to FHE's widespread adoption. We present F1, the first FHE accelerator that is programmable, i.e., capable of executing full FHE programs. F1 builds on an in-depth architectural analysis of the characteristics of FHE computations that reveals acceleration opportunities. F1 is a wide-vector processor with novel functional units deeply specialized to FHE primitives, such as modular arithmetic, number-theoretic transforms, and structured permutations. This organization provides so much compute throughput that data movement becomes the bottleneck. Thus, F1 is primarily designed to minimize data movement. The F1 hardware provides an explicitly managed memory hierarchy and mechanisms to decouple data movement from execution. A novel compiler leverages these mechanisms to maximize reuse and schedule off-chip and on-chip data movement. We evaluate F1 using cycle-accurate simulations and RTL synthesis. F1 is the first system to accelerate complete FHE programs and outperforms state-of-the-art software implementations by gmean 5400x and by up to 17000x. These speedups counter most of FHE's overheads and enable new applications, like real-time private deep learning in the cloud.

연구 동기 및 목표

실용적인 보안 오프로드를 가능하게 하는 완전 FHE의 하드웨어 가속 필요성에 동기를 부여한다.
프리미티브가 아닌 완전한 FHE 프로그램을 실행할 수 있는 프로그래머블 FHE 가속기를 설계한다.
명시적으로 관리되는 메모리 계층 구조와 정적 스케줄링으로 데이터 이동을 최소화하고 재사용을 극대화한다.
FHE 프리미티브에 맞춤화된 특수 벡터 기능 유닛(모듈러 산술, NTT, 자동동형)을 개발한다.
RTL/14nm-12nm 구현 및 사이클 정확 시뮬레이션을 통해 대규모 속도 향상을 보여주며 타당성을 입증한다.

제안 방법

모듈러 덧셈/곱, NTT, 자동동형 등을 갖춘 특수 FHE 기능 유닛을 포함하는 광 벡터 프로세서 아키텍처를 제안한다.
산술 너비를 32비트 래인으로 유지하고 와이드 계수 연산을 가능하게 하기 위해 잔여수계(RNS)를 사용한다.
전역 제어를 갖춘 고정된(static) VLIW 유사 스케줄링과 분산 제어 및 데이터 이동 분리로 처리량을 극대화하고 스톨을 최소화한다.
지연을 숨기기 위해 명시적으로 관리되는 온칩 스크래치패드 메모리(64 MB)와 빠른 온칩 네트워크를 가진 고대역폭 오프칩 메모리를 구현한다.
세 단계 스케줄링을 수행하는 새로운 컴파일러를 개발한다: 고수준 연산 순서 결정, 오프칩 데이터 이동 스케줄링, 사이클 정확도 및 구성요소 수준 스케줄링.
사이클 정확 시뮬레이션과 14nm/12nm 공정에서의 RTL 합성을 통해 성능과 면적을 정량화하여 평가한다.

실험 결과

연구 질문

RQ1가속기가 BGV, CKKS, GSW와 같은 다양한 FHE 체계에서 프리미티브가 아닌 완전한 FHE 프로그램을 실행하도록 프로그래밍 가능하게 하려면 어떻게 설계할 수 있는가?
RQ2데이터 이동을 최소화하면서 FHE 워크로드의 처리량을 가장 높게 만드는 아키텍처 선택(메모리 계층 구조, 정적 스케줄링, 벡터화된 FUs)은 무엇인가?
RQ3대표적인 FHE 워크로드에서 최첨단 소프트웨어 구현 대비 프로그래머블 FHE 가속기의 달성 가능한 속도향상은 무엇인가?
RQ4주된 비용인 키-스위칭과 자동동형성의 비용을 F1 설계가 어떻게 처리하며 재사용 및 대역폭 효율을 위한 어떤 데이터 관리 전략이 필요한가?

주요 결과

F1은 벤치마크 전반에서 최신 소프트웨어 FHE 구현 대비 1,200×에서 17,000×의 속도향상을 달성한다.
RTL 및 합성은 14nm/12nm 공정에서 32비트 모듈러 산술의 36 테라-ops/s, 64 MB 온칩 저장소, 그리고 1 TB/s 메모리 대역폭을 산출한다.
F1은 완전한 FHE 프로그램을 실행하여 클라우드에서 실시간 딥러닝 추론과 같은 애플리케이션을 가능하게 한다(예: 20분 추론을 240 ms로 단축).
성능은 데이터 이동에 의해 제한되며, F1은 명시적으로 관리되는 메모리 계층 구조와 분리된 데이터 이동으로 이를 완화한다.
이 아키텍처는 많은 고처리량 벡터 유닛과 이를 효율적으로 공급하기 위해 신중하게 설계된 온칩 네트워크를 갖춘 정적 스케줄링을 사용한다.
F1은 동일한 프리미티브 유닛을 사용하여 여러 FHE 체계(BGV, CKKS, GSW)를 지원하여 알고리즘적 다양성을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.