Skip to main content
QUICK REVIEW

[論文レビュー] AdaTSQ: Pushing the Pareto Frontier of Diffusion Transformers via Temporal-Sensitivity Quantization

Shaoqiu Zhang, Zizhong Ding|arXiv (Cornell University)|Feb 10, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

AdaTSQ は、パレート対応の動的ビット幅割り当てと Fisher による時相キャリブレーションを用いた Diffusion Transformers のポストトレーニング量子化フレームワークを導入し、時相感度を活用して最先端の W4A4 を達成し、W3A3 の画像生成と効率的探索による強力な動画結果を可能にします。

ABSTRACT

Diffusion Transformers (DiTs) have emerged as the state-of-the-art backbone for high-fidelity image and video generation. However, their massive computational cost and memory footprint hinder deployment on edge devices. While post-training quantization (PTQ) has proven effective for large language models (LLMs), directly applying existing methods to DiTs yields suboptimal results due to the neglect of the unique temporal dynamics inherent in diffusion processes. In this paper, we propose AdaTSQ, a novel PTQ framework that pushes the Pareto frontier of efficiency and quality by exploiting the temporal sensitivity of DiTs. First, we propose a Pareto-aware timestep-dynamic bit-width allocation strategy. We model the quantization policy search as a constrained pathfinding problem. We utilize a beam search algorithm guided by end-to-end reconstruction error to dynamically assign layer-wise bit-widths across different timesteps. Second, we propose a Fisher-guided temporal calibration mechanism. It leverages temporal Fisher information to prioritize calibration data from highly sensitive timesteps, seamlessly integrating with Hessian-based weight optimization. Extensive experiments on four advanced DiTs (e.g., Flux-Dev, Flux-Schnell, Z-Image, and Wan2.1) demonstrate that AdaTSQ significantly outperforms state-of-the-art methods like SVDQuant and ViDiT-Q. Our code will be released at https://github.com/Qiushao-E/AdaTSQ.

研究の動機と目的

  • Diffusion Transformers(DiTs)を temporal fidelity を損なわず圧縮する必要性を動機づける。
  • DiTs における時相の異質性を活用する PTQ フレームワークを開発する。
  • timesteps および layers にわたってビット幅を割り当てる Pareto-aware beam-search 戦略を提案する。
  • 感度の高い timesteps からのキャリブレーションデータを優先する Fisher-guided 時相キャリブレーションを導入する。

提案手法

  • モデル量子化ポリシー探索を制約付きパス探索問題として定式化し、再構成誤差をビット予算の下で最小化する Pareto-aware beam search によって解く。
  • Fisher 情報に基づいて感度の高い timesteps をターゲットにする timesteps 固有の候補設定を生成する。
  • 累積再構成誤差とビットコストのバランスをとるために Pareto frontier を用いる。
  • Fisher 情報を介して時相の重要度を計測し、層ごとにキャリブレーションデータを再重み付けする温度スケール化 softmax を適用する。
  • ウェイト量子化を時系列で重み付けられたリスク最小化として再定式化し、キャリブレーション用のリスク認識ヘシアンを導出する。
  • 任意として、最終候補を軽量な end-to-end 指標(例:CLIP)で検証して、ビット予算下での知覚品質の最良を選択する。

実験結果

リサーチクエスチョン

  • RQ1DiTs における timesteps および layers への量子化ビット幅の割り当てを、固定ビット予算内で知覚品質を最大化するにはどうすればよいか。
  • RQ2Fisher 情報は拡散デノイズの時相的に感度の高いフェーズを識別し、キャリブレーションと最適化を導くのに有効か。
  • RQ3Fisher-guided 時相キャリブレーションは画像および動画 DiTs の量子化の頑健性を向上させるか。
  • RQ4AdaTSQ は画像および動画のベンチマークにおいて最先端の DiT 量子化手法と比較してどうか。

主な発見

  • AdaTSQ は画像生成と動画生成の両方のシナリオで SVDQuant や ViDiT-Q のような最先端手法を上回る。
  • Flux-Dev、Flux-Schnell、Z-Image、Wan2.1 に対しても W4A4 の頑健な量子化を実現し、知覚品質を維持する。
  • Pareto-aware な割り当ては静的量子化のベースラインよりも構造的鮮明さと意味的整合を向上させる。
  • Fisher-guided な時相キャリブレーションは重要なデノイジング手順の保持を改善し、エンドツーエンドの生成指標を向上させる。
  • 探索のオーバーヘッドは効率的で、50ステップのモデルに対して最適な混合精度ポリシーを見つけるのに単一の A100-80GB GPU で約 4 分程度要する。ポリシーはおおよそ 80% 3-bit、10% 4-bit、10% 8-bit に集中し、平均約 3.1-bit、FLOPs およびメモリ節約を大幅に達成(約 5.16×、約 5.33×)。
  • AdaTSQ はテキストから画像へのモデルで W3A3 画像生成を達成し、動画モデルで強力な W4A4 性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。