QUICK REVIEW

[論文レビュー] Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Athos Georgiou|arXiv (Cornell University)|Feb 27, 2026

Parallel Computing and Optimization Techniques被引用数 0

ひとこと要約

この論文は、AMD Instinct MI325X GPU上でvLLMを用いた frontier LLM 推論のクロスアーキテクチャベンチマークを提示し、Dense、MoE+GQA、および MLA アーキテクチャの4つのモデルに対するアーキテクチャ固有のデプロイ制約、量子化、およびスループット結果を解説します。さらに、十億パラメータ級モデルのデプロイに関するインサイトと、ワークロード駆動の飽和挙動を提供します。

ABSTRACT

We present a cross-architecture evaluation of production LLM inference on AMD Instinct MI325X GPUs, benchmarking four models spanning 235B to 1 trillion parameters across three architectural families (MoE+MLA, Dense+GQA, MoE+GQA) on an 8-GPU cluster with 2TB aggregate HBM3e using vLLM v0.14.1. Our results demonstrate that architecture-aware optimization is essential: MLA models require block size 1 and cannot use KV cache offloading, while GQA models benefit from both. The AMD AITER runtime is required for competitive MLA inference throughput and must be selectively disabled for architectures with incompatible attention head configurations. A controlled AITER ablation on Llama-3.1-405B (n=5 per condition) reveals a modest 3-5% throughput benefit at high concurrency but 2-16x higher measurement variability, confirming that AITER's large speedups target MoE/MLA kernels specifically. Under text-only workloads, Llama-405B and DeepSeek V3.2 achieve comparable peak throughput (15,944 and 15,343 tok/s) despite an order-of-magnitude difference in active parameters. Under vision workloads, Qwen3-VL-235B reaches 47,873 tok/s, 6.5x higher than Kimi-K2.5 (7,327 tok/s). Active parameter count per token is associated with inference throughput, though confounded by differences in quantization, AITER acceleration, and tensor parallelism. All four models exhibit a common throughput saturation point consistent with a memory-bandwidth bottleneck (~500 concurrent for short sequences, ~100-200 for longer sequences). All models maintain 100% HTTP-level success rates through 1,000 concurrent users, processing 18.9 million tokens across 17,406 requests without failures.

研究の動機と目的

AMD Instinct MI325X GPU上で多様なモデルアーキテクチャ（Dense+GQA、MoE+GQA、MoE+MLA）に対するアーキテクチャ適合型のLLM推論パフォーマンスを評価する。
ROCmとvLLM上でスループットと信頼性に影響を与えるアーキテクチャ固有のデプロイ制約を特徴付ける。
本番環境に近い8-GPUクラスター上で十億パラメータ級MoEモデルをベンチマークし、実現性とスループットのベンチマークを確立する。

提案手法

235B–1T総パラメータを持つ4つの frontier モデルを8-GPU MI325Xクラスターでベンチマークし、総HBM3e2 TBを利用。
vLLM v0.14.1を用いて、単一リクエストから1000ユーザーまでのスループットと同時実行を評価。
MLA、GQA、MoEモデルにおけるブロックサイズ、KVキャッシュオフロード、およびAITER互換性といったアーキテクチャ特有の制約を特徴付ける。
FP8およびINT4量子化戦略、KVキャッシュ管理、テンソル並列性の構成といったアーキテクチャ主導の最適化を適用。
MoE/MLAカーネルに特有のカーネルレベルのスピードアップを孤立させるための制御実験（AITERオン/オフ）を実施。

実験結果

リサーチクエスチョン

RQ1異なるLLMアーキテクチャ（Dense+GQA、MoE+GQA、MoE+MLA）は、AMD Instinct MI325X GPU上の本番ライクな推論ワークロードでどのように性能を発揮するか？
RQ2ROCm/vLLMのデプロイ構成を支配するアーキテクチャ特有の制約（ブロックサイズ、KVキャッシュオフロード、AITER互換性）は何か？
RQ3小規模なMI325Xクラスターで十億パラメータ級MoEモデルに対してどの程度のスループットと信頼性が達成可能か、前端スケールでアクティブパラメータ数はスループットとどう関係するか？
RQ4テキストのみ vs テキストとビジョン言語のワークロードタイプは、MI325X上のスループット飽和とメモリ帯域幅ボトルネックにどのように影響するか？

主な発見

アーキテクチャを意識した最適化は不可欠；MLAモデルはブロックサイズを1に設定する必要があり、KVキャッシュオフロードは不可、一方GQAモデルはKVオフロードの恩恵を受ける。
ROCm上で競合するMLAスループトにはAITERが必須；Triton MLAのフォールバックは遅く、互換性のないヘッド構成を持つアーキテクチャではAITERを無効化する必要がある。
Kimi-K2.5は4つのMI325X GPUでINT4 QATを活用し、500 concurrentリクエストで7,327 tok/sのスループットを達成した。
Qwen3-VL-235B（MoE+GQA、アクティブ22B）は47,873 tok/s、Kimi-K2.5（アクティブ32B）は総パラメータが異なるにもかかわらず類似のスループットを達成。
4モデルはいずれも短いシーケンスで約500 concurrent、長いシーケンスで約100–200 concurrent 付近でスループット飽和を示し、メモリ帯域幅のボトルネックを示唆。
HTTPレベルの成功率100%（有効なレスポンス構造を持つHTTP 200）は、1,000 concurrentユーザー時にも維持され、総トークン数1890万、リクエスト17406件で観測。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。