QUICK REVIEW

[논문 리뷰] TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly

Toshiaki Koike-Akino, Jing Liu|arXiv (Cornell University)|2026. 03. 11.

Advanced Neural Network Applications인용 수 0

한 줄 요약

TTQ는 오프라인 보정 없이 추론 시 활성화 인식 양자화를 도입하여 LLM을 압축하고, 제로 보정 데이터로 속도 향상을 달성하며 프롬프트 전반에 걸친 강건성을 보장합니다. 활성화 통계 기반 AWQ와 경량의 온라인 접근 방식 및 선택적 저랭크 분해를 결합하여 양자화 성능을 향상시킵니다.

ABSTRACT

To tackle the huge computational demand of large foundation models, activation-aware compression techniques without retraining have been introduced. However, since these methods highly rely on calibration data, domain shift issues may arise for unseen downstream tasks. We propose a test-time quantization (TTQ) framework which compresses large models on the fly at inference time to resolve this issue. With an efficient online calibration, instant activation-aware quantization can adapt every prompt regardless of the downstream tasks, yet achieving inference speedup. Several experiments demonstrate that TTQ can improve the quantization performance over state-of-the-art baselines.

연구 동기 및 목표

오프라인 활성화 인식 양자화가 LLM에서 domain shift 및 보정 데이터 의존성에 미치는 영향을 다룬다.
추론 시 각 프롬프트에 적응하는 제로-보정 온라인 양자화 프레임워크를 개발한다.
정확도를 유지하면서 추론을 더욱 가속화하기 위한 저랭크 분해를 통합한다.
다수의 LLM 벤치마크에서 최첨단 기준선 대비 TTQ의 이점을 입증한다.

제안 방법

가중치를 실시간으로 양자화하기 위해 그룹별 RTN 양자화를 QDQ 연산과 함께 사용한다.
대각 입력 공분산 근사를 이용한 빠른 폐쇄 형 해를 위한 AWQ를 채택하여 가중치를 양자화한다.
추론 중 작은 보정 유사 패스를 통해 온라인으로 활성화 통계를 추정하고 C_lambda를 축소하여 L = E_X|| (W- W_hat) X ||^2를 최소화한다.
테스트 타임 동안 포괄적 탐색을 피하기 위해 초하이퍼파라미터 alpha, lambda, p를 고정한다.
필요시 동적 저랭크 인자 B와 A를 도입하여 W를 W_q + B A로 표현하고 W_q는 즉시 양자화한다.
TTQ의 계산 오버헤드를 분석하고 d', T가 커질수록 오버헤드가 무시할 수 있게 되는 것을 보여준다.
GPU에서 양자화된 투영을 가속하기 위한 CUDA 기반 AWQ/GEMM 커널을 제공한다.

실험 결과

연구 질문

RQ1배포 시 보정이 불가능한 경우 TTQ가 AWQ 및 RTN 기준선에 비해 성능이 얼마나 우수한가?
RQ2그룹 크기 g가 모델 및 비트 너비 전반의 양자화 품질과 혼란도(perplexity)에 어떤 영향을 미치는가?
RQ3다양한 LLM에서 2-5비트로 매우 낮은 비트폭에서도 TTQ가 높은 정확도를 유지할 수 있는가?
RQ4저랭크 분해를 TTQ와 통합하면 대략적인 정확도 손실 없이 추가적인 속도 향상을 얻을 수 있는가?

주요 결과

온라인 AWQ를 활용한 TTQ는 calibration 데이터가 제한적이거나 없는 경우에도 WT2, PTB, C4 벤치마크에서 오프라인 AWQ 기준선보다 더 나은 perplexity를 달성한다.
그룹 크기가 양자화 품질에 미치는 영향: 마이크로 스케일링(g < 32)이 유리하고, AWQ보다 TTQ가 더 큰 g를 허용하며, r=16일 때 RTN 및 비교 가능한 AWQ를 능가하는 경우가 많다.
3비트 양자화에서 TTQ는 오프라인 보정 데이터 없이도 여러 모델(예: OPT-125M에서 Gemma-1B에 이르는)에서 강력한 성능을 보이며, 5비트에서 비압축 모델의 성능과 종종 유사하거나 근접한 결과를 보인다.
저랭크 분해(B A)와 TTQ의 결합은 잔여를 양자화하고 저랭크 투영을 활용하여 일부 구성에서 최대 5배의 속도 향상을 제공하며 약간의 오버헤드가 발생한다.
TTQ는 OPT, Qwen3, Gemma 모델에서 WT2, PTB, C4 데이터세트 전반에 걸쳐 기존 최첨단 기준선 대비 강한 개선을 보여주었고, 보정 없는 TTQ는 보정 데이터 세트에 따른 AWQ보다 변동 폭이 작았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.