QUICK REVIEW

[论文解读] Challenges and Research Directions for Large Language Model Inference Hardware

Xiaoyu Ma, David Patterson|arXiv (Cornell University)|Jan 8, 2026

Advanced Neural Network Applications被引用 0

一句话总结

本文认为大语言模型推理瓶颈在于内存和互连而非计算，并概述了四个架构研究机会以应对这些限制，讨论了数据中心AI与移动端的适用性。

ABSTRACT

Large Language Model (LLM) inference is hard. The autoregressive Decode phase of the underlying Transformer model makes LLM inference fundamentally different from training. Exacerbated by recent AI trends, the primary challenges are memory and interconnect rather than compute. To address these challenges, we highlight four architecture research opportunities: High Bandwidth Flash for 10X memory capacity with HBM-like bandwidth; Processing-Near-Memory and 3D memory-logic stacking for high memory bandwidth; and low-latency interconnect to speedup communication. While our focus is datacenter AI, we also review their applicability for mobile devices.

研究动机与目标

识别大语言模型（LLM）推理中的主要硬件瓶颈。
提出架构研究方向，以提升LLM推理的内存容量和带宽。
评估所提硬件方法在数据中心AI与移动设备的适用性。
指出LLM推理硬件未来研究的空白点与方向。

提出的方法

回顾并综合LLM推理中的架构挑战。
突出四个关键架构机会：高带宽闪存、近存处理、3D内存-逻辑堆叠、以及低延迟互连。
讨论在数据中心AI与移动场景中的适用性。

实验结果

研究问题

RQ1LLM推理相对于训练，主要的硬件瓶颈是什么？
RQ2哪些架构策略可以为LLM推理提供更高的内存容量和带宽？
RQ3近存处理与3D内存-逻辑堆叠如何降低延迟、提高LLM推理的吞吐量？
RQ4互连延迟在LLM推理性能中扮演何种角色，如何缓解？
RQ5所提硬件策略在移动设备与数据中心AI部署中的适用性分别如何？

主要发现

确认内存和互连是LLM推理的主要瓶颈，而非计算。
强调四个架构方向以应对这些瓶颈：高带宽闪存、近存处理、3D内存-逻辑堆叠、以及低延迟互连。
讨论这些方法在数据中心AI中的相关性及对移动性适用性的评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。