Skip to main content
QUICK REVIEW

[论文解读] Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Athos Georgiou|arXiv (Cornell University)|Feb 27, 2026
Parallel Computing and Optimization Techniques被引用 0
一句话总结

本论文在 AMD Instinct MI325X GPU 上使用 vLLM,对前沿 LLM 推理进行了跨架构基准测试,详细描述了在 dense、MoE+GQA 与 MLA 架构下的架构特定部署约束、量化以及吞吐量结果,覆盖四个模型。并提供了对万亿参数模型的部署洞察和工作负载驱动的饱和行为。

ABSTRACT

We present a cross-architecture evaluation of production LLM inference on AMD Instinct MI325X GPUs, benchmarking four models spanning 235B to 1 trillion parameters across three architectural families (MoE+MLA, Dense+GQA, MoE+GQA) on an 8-GPU cluster with 2TB aggregate HBM3e using vLLM v0.14.1. Our results demonstrate that architecture-aware optimization is essential: MLA models require block size 1 and cannot use KV cache offloading, while GQA models benefit from both. The AMD AITER runtime is required for competitive MLA inference throughput and must be selectively disabled for architectures with incompatible attention head configurations. A controlled AITER ablation on Llama-3.1-405B (n=5 per condition) reveals a modest 3-5% throughput benefit at high concurrency but 2-16x higher measurement variability, confirming that AITER's large speedups target MoE/MLA kernels specifically. Under text-only workloads, Llama-405B and DeepSeek V3.2 achieve comparable peak throughput (15,944 and 15,343 tok/s) despite an order-of-magnitude difference in active parameters. Under vision workloads, Qwen3-VL-235B reaches 47,873 tok/s, 6.5x higher than Kimi-K2.5 (7,327 tok/s). Active parameter count per token is associated with inference throughput, though confounded by differences in quantization, AITER acceleration, and tensor parallelism. All four models exhibit a common throughput saturation point consistent with a memory-bandwidth bottleneck (~500 concurrent for short sequences, ~100-200 for longer sequences). All models maintain 100% HTTP-level success rates through 1,000 concurrent users, processing 18.9 million tokens across 17,406 requests without failures.

研究动机与目标

  • 在 AMD Instinct MI325X GPU 上针对多样化模型架构(Dense+GQA、MoE+GQA、MoE+MLA)评估架构感知的 LLM 推理性能。
  • 表征影响 ROCm/vLLM 的吞吐量与可靠性的架构特定部署约束。
  • 在一个生产级八 GPU 集群上对万亿参数 MoE 模型进行基准测试,以确立可行性与吞吐量基准。

提出的方法

  • 在 8-GPU MI325X 集群上基准测试总参数量在 235B–1T 的四个前沿模型,聚集内存带宽为 2 TB 的 HBM3e。
  • 使用 vLLM v0.14.1 评估从单请求到 1,000 用户的吞吐量与并发性。
  • 描述 MLA、GQA、MoE 模型在块大小、KV 缓存下 offload、以及 AITER 兼容性等架构特定约束。
  • 应用以架构驱动的优化策略,包括 FP8 与 INT4 量化、KV 缓存管理与张量并行配置。
  • 进行有控制的消融实验(AITER 开/关),以隔离特定于 MoE/MLA 内核的速度提升。

实验结果

研究问题

  • RQ1在生产化推理工作负载下,不同 LLM 架构(Dense+GQA、MoE+GQA、MoE+MLA)在 AMD Instinct MI325X GPU 上的表现如何?
  • RQ2哪些架构特定约束(块大小、KV 缓存下 offload、AITER 兼容性)决定 ROCm/vLLM 的部署配置?
  • RQ3在小型 MI325X 集群上对万亿参数 MoE 模型可达到的吞吐量与可靠性如何,前沿规模下活动参数数量与吞吐量的关系如何?
  • RQ4工作负载类型(文本单一 vs 视觉-语言)如何影响吞吐量饱和与内存带宽瓶颈?

主要发现

  • 架构感知的优化至关重要;MLA 模型需要块大小为 1,且不能使用 KV 缓存下 offload,而 GQA 模型受益于 KV 下 offload。
  • AITER 对于在 ROCm 上实现有竞争力的 MLA 吞吐是必需的;Triton 的 MLA 回退较慢,且对于具有不兼容头配置的架构需禁用 AITER。
  • Kimi-K2.5 在 500 个并发请求时,以 1T 参数,使用 four MI325X GPU 的 INT4 QAT 达到 7,327 tok/s 的吞吐。
  • Qwen3-VL-235B(MoE+GQA,活跃 22B)达到 47,873 tok/s,而 Kimi-K2.5(活跃 32B)则达到相似吞吐,尽管总参数量存在差异。
  • 四个模型在短序列近 500 的并发和较长序列的 100–200 并发处均表现出吞吐量饱和,指向内存带宽瓶颈。
  • 在 1,000 并发用户下,18.9 百万标记与 17,406 请求的 HTTP 级别 100% 成功率(HTTP 200,且响应结构有效)得以保持。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。