Skip to main content
QUICK REVIEW

[논문 리뷰] TaxBreak: Unmasking the Hidden Costs of LLM Inference Through Overhead Decomposition

Prabhu Vellaisamy, Shreesh Tripathi|arXiv (Cornell University)|2026. 03. 12.
Software System Performance and Reliability인용 수 0
한 줄 요약

TaxBreak는 추적 기반 방법으로 호스트에서 보이는 LLM 추론 오버헤드를 프레임워크 번역, CUDA 라이브러리 번역, 및 커널 실행 비용으로 분해하고, CPU–GPU 바운드 워크로드를 진단하기 위한 Host–Device Balance Index (HDBI)를 제시한다.

ABSTRACT

Large Language Model (LLM) inference is widely used in interactive assistants and agentic systems. In latency-sensitive deployments, inference time can become dominated by host-side overheads. Existing approaches typically expose this cost only as an aggregate residual or a launch/queue metric, which is often insufficient to identify which execution layer should be optimized. This work presents TaxBreak, a trace-driven methodology for decomposing host-visible orchestration overhead into three components: framework translation time, CUDA library translation time, and kernel launch-path time. We validate TaxBreak on NVIDIA H100 and H200 systems and use it to derive our proposed Host-Device Balance Index (HDBI), a boundedness summary index that relates device-active execution to host-visible orchestration. Across representative dense and mixture-of-experts workloads in both prefill and decode, we show that aggregate latency, GPU inactivity, or boundedness ratios alone can obscure the dominant optimization target. TaxBreak instead distinguishes cases where optimization should reduce software-stack overhead from cases where the primary win comes from reducing device-side work. We further show that MoE models dispatch 8-11x more kernels per output token than dense models, and that for such host-bound workloads, CPU single-thread performance is a first-order parameter: a faster host CPU reduces orchestration overhead by 10-29% and improves end-to-end latency by up to 14%, even when paired with a slower-clocked GPU. These results position TaxBreak as a diagnostic tool for assessing whether optimization effort should target the software stack or the device-side workload execution.

연구 동기 및 목표

  • LLM 추론 비효율성을 호스트 측 추상화 계층과 실행 단계 전반에 걸쳐 속성화해야 할 필요성을 동기화한다.
  • 호스트 오버헤드를 프레임워크 번역, CUDA 라이브러리 번역, 커널 런치 비용의 세 구성요소로 계층 해상도 분해를 제안한다.
  • CPU–GPU 바운드 정도를 정량화하고 최적화 초점을 안내하기 위한 Host–Device Balance Index(HDBI)를 도입한다.
  • dense 및 mixture-of-experts 워크로드에서 NVIDIA H100/H200 플랫폼에서 prefill 및 decode에 대해 TaxBreak를 검증한다.
  • 집계 메트릭이 지배적인 최적화 대상(Target)을 가리기 어렵고 CPU 성능이 엔드투엔드 지연에 의미 있게 영향을 줄 수 있음을 보여준다.

제안 방법

  • DeltaFT(프레임워크 번역), DeltaCT(CUDA-라이브러리 번역 for 라이브러리 매개 커널), DeltaKT(하드웨어 플로어 커널 런치 비용)의 세 용어로 각 커널의 호스트 측 대기시간을 분해한다.
  • 두 단계 파이프라인으로 측정: Phase 1 전체 모델 추적으로 커널 데이터베이스를 구축; Phase 2 널-커널 플로어를 가진 격리 재생으로 파견 및 런치 오버헤드를 분리한다.
  • 커널을 라이브러리 매개(I_lib = 1) 또는 프레임워크 네이티브(I_lib = 0)로 분류하여 DeltaCT 대 DeltaFT를 속성화한다.
  • Host–Device Balance Index: HDBI = T_DeviceActive / (T_DeviceActive + T_Orchestration)로 호스트-대 디바이스 바운드 체제를 나타낸다.
  • 커널 패밀리 분류 체계와 재생 커널을 trace 커널과 매칭하는 절차(정확 매칭, 부분 문자열 매칭, 가장 자주 등장하는 매칭) 등을 제공한다.
  • 두 NVIDIA 플랫폼(H100 및 H200)과 밀집(dense) 및 MoE 워크로드를 사용하여 prefill 및 decode 체계를 비교한다.

실험 결과

연구 질문

  • RQ1호스트 측 LLM 추론 오버헤드를 프레임워크 번역, CUDA 라이브러리 프런트 엔드, 그리고 커널 런치 경로 전반에 걸쳐 어떻게 분해할 수 있는가?
  • RQ2Host–Device Balance Index가 소프트웨어 스택이나 디바이스 측 실행 중 어디에 최적화를 집중해야 하는지 신뢰할 수 있게 나타내는가?
  • RQ3밀집(dense)과 mixture-of-experts(MoE) LLM은 prefill 및 decode 중 커널 조각화 및 호스트-대 디바이스 동작에서 어떻게 다른가?
  • RQ4CPU 단일 스레드 성능이 호스트 오케스트레이션 및 엔드투엔드 latency에 어떤 영향을 미치는가?
  • RQ5상호 단계별 측정이 커널 융합, CUDA Graphs, 런타임 컴파일 등 粗GPU 활용 지표를 넘어서는 최적화 대상들을 드러내는가?

주요 결과

  • TaxBreak는 호스트 오버헤드를 프레임워크 번역, CUDA-라이브러리 번역, 커널 런치 플로어 비용의 세 단계로 분해하는 것을 가능하게 한다.
  • Mixture-of-Experts 모델은 밀집 모델과 비교해 활성 매개변수 수가 같은 수준에서 출력 토큰당 8–11배 더 많은 커널을 디스패치하여 호스트 오버헤드를 더 크게 만든다.
  • 빠른 CPU 단일 스레드 성능은 호스트 오케스트레이션 오버헤드를 10–29% 감소시키고 엔드-투-엔드 지연을 최대 14%까지 개선하며, GPU 클럭이 느려도 더 개선된다.
  • HDBI는 최적화 대상이 소프트웨어 스택의 오버헤드를 줄일지 아니면 디바이스 측 작업을 줄일지에 대해 경계 상황을 제공하여 호스트-바운드와 디바이스-바운드 체제를 명확히 한다.
  • GPT-2 on H200에서 TaxBreak는 호스트 오케스트레이션이 배치 크기에 거의 평탄한 반면 디바이스 작업이 지연 증가를 주도함을 보여주어 HDBI가 집계 런치 메트릭보다 유용하다는 것을 보여준다.
  • 밀집 및 MoE 워크로드와 prefill 및 decode 전 범위에서 집계 메트릭만으로는 지배적인 최적화 대상이 가려질 수 있어 스택 간 속성의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.