[논문 리뷰] TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly
TTQ는 오프라인 보정 없이 추론 시 활성화 인식 양자화를 도입하여 LLM을 압축하고, 제로 보정 데이터로 속도 향상을 달성하며 프롬프트 전반에 걸친 강건성을 보장합니다. 활성화 통계 기반 AWQ와 경량의 온라인 접근 방식 및 선택적 저랭크 분해를 결합하여 양자화 성능을 향상시킵니다.
To tackle the huge computational demand of large foundation models, activation-aware compression techniques without retraining have been introduced. However, since these methods highly rely on calibration data, domain shift issues may arise for unseen downstream tasks. We propose a test-time quantization (TTQ) framework which compresses large models on the fly at inference time to resolve this issue. With an efficient online calibration, instant activation-aware quantization can adapt every prompt regardless of the downstream tasks, yet achieving inference speedup. Several experiments demonstrate that TTQ can improve the quantization performance over state-of-the-art baselines.
연구 동기 및 목표
- 오프라인 활성화 인식 양자화가 LLM에서 domain shift 및 보정 데이터 의존성에 미치는 영향을 다룬다.
- 추론 시 각 프롬프트에 적응하는 제로-보정 온라인 양자화 프레임워크를 개발한다.
- 정확도를 유지하면서 추론을 더욱 가속화하기 위한 저랭크 분해를 통합한다.
- 다수의 LLM 벤치마크에서 최첨단 기준선 대비 TTQ의 이점을 입증한다.
제안 방법
- 가중치를 실시간으로 양자화하기 위해 그룹별 RTN 양자화를 QDQ 연산과 함께 사용한다.
- 대각 입력 공분산 근사를 이용한 빠른 폐쇄 형 해를 위한 AWQ를 채택하여 가중치를 양자화한다.
- 추론 중 작은 보정 유사 패스를 통해 온라인으로 활성화 통계를 추정하고 C_lambda를 축소하여 L = E_X|| (W- W_hat) X ||^2를 최소화한다.
- 테스트 타임 동안 포괄적 탐색을 피하기 위해 초하이퍼파라미터 alpha, lambda, p를 고정한다.
- 필요시 동적 저랭크 인자 B와 A를 도입하여 W를 W_q + B A로 표현하고 W_q는 즉시 양자화한다.
- TTQ의 계산 오버헤드를 분석하고 d', T가 커질수록 오버헤드가 무시할 수 있게 되는 것을 보여준다.
- GPU에서 양자화된 투영을 가속하기 위한 CUDA 기반 AWQ/GEMM 커널을 제공한다.
실험 결과
연구 질문
- RQ1배포 시 보정이 불가능한 경우 TTQ가 AWQ 및 RTN 기준선에 비해 성능이 얼마나 우수한가?
- RQ2그룹 크기 g가 모델 및 비트 너비 전반의 양자화 품질과 혼란도(perplexity)에 어떤 영향을 미치는가?
- RQ3다양한 LLM에서 2-5비트로 매우 낮은 비트폭에서도 TTQ가 높은 정확도를 유지할 수 있는가?
- RQ4저랭크 분해를 TTQ와 통합하면 대략적인 정확도 손실 없이 추가적인 속도 향상을 얻을 수 있는가?
주요 결과
- 온라인 AWQ를 활용한 TTQ는 calibration 데이터가 제한적이거나 없는 경우에도 WT2, PTB, C4 벤치마크에서 오프라인 AWQ 기준선보다 더 나은 perplexity를 달성한다.
- 그룹 크기가 양자화 품질에 미치는 영향: 마이크로 스케일링(g < 32)이 유리하고, AWQ보다 TTQ가 더 큰 g를 허용하며, r=16일 때 RTN 및 비교 가능한 AWQ를 능가하는 경우가 많다.
- 3비트 양자화에서 TTQ는 오프라인 보정 데이터 없이도 여러 모델(예: OPT-125M에서 Gemma-1B에 이르는)에서 강력한 성능을 보이며, 5비트에서 비압축 모델의 성능과 종종 유사하거나 근접한 결과를 보인다.
- 저랭크 분해(B A)와 TTQ의 결합은 잔여를 양자화하고 저랭크 투영을 활용하여 일부 구성에서 최대 5배의 속도 향상을 제공하며 약간의 오버헤드가 발생한다.
- TTQ는 OPT, Qwen3, Gemma 모델에서 WT2, PTB, C4 데이터세트 전반에 걸쳐 기존 최첨단 기준선 대비 강한 개선을 보여주었고, 보정 없는 TTQ는 보정 데이터 세트에 따른 AWQ보다 변동 폭이 작았다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.