[논문 리뷰] TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration
TC-Padé는 패데에서 영감을 얻은, 궤적-일관된 잔차 예측기를 도입하여 확산 모델 샘플링을 가속하고, 일부 설정에서 최대 2.88×의 속도 향상까지 달성하며 이미지/비디오 품질을 유지합니다.
Despite achieving state-of-the-art generation quality, diffusion models are hindered by the substantial computational burden of their iterative sampling process. While feature caching techniques achieve effective acceleration at higher step counts (e.g., 50 steps), they exhibit critical limitations in the practical low-step regime of 20-30 steps. As the interval between steps increases, polynomial-based extrapolators like TaylorSeer suffer from error accumulation and trajectory drift. Meanwhile, conventional caching strategies often overlook the distinct dynamical properties of different denoising phases. To address these challenges, we propose Trajectory-Consistent Padé approximation, a feature prediction framework grounded in Padé approximation. By modeling feature evolution through rational functions, our approach captures asymptotic and transitional behaviors more accurately than Taylor-based methods. To enable stable and trajectory-consistent sampling under reduced step counts, TC-Padé incorporates (1) adaptive coefficient modulation that leverages historical cached residuals to detect subtle trajectory transitions, and (2) step-aware prediction strategies tailored to the distinct dynamics of early, mid, and late sampling stages. Extensive experiments on DiT-XL/2, FLUX.1-dev, and Wan2.1 across both image and video generation demonstrate the effectiveness of TC-Padé. For instance, TC-Padé achieves 2.88x acceleration on FLUX.1-dev and 1.72x on Wan2.1 while maintaining high quality across FID, CLIP, Aesthetic, and VBench-2.0 metrics, substantially outperforming existing feature caching methods.
연구 동기 및 목표
- 기존 캐싱이 품질 저하를 유발하는 저단계 구간(20–30 단계)에서 확산 모델의 가속화를 촉진한다.
- 잔차에 기반한 Padé 근사에 기반한 궤적-일관된 특징 예측기를 개발한다.
- 초기, 중기, 후기 제거 단계를 다루기 위한 적응적이고 단계-인식 예측을 도입한다.
- 이미지 및 비디오 생성 벤치마크에서 강건성과 효율성을 입증한다.
제안 방법
- 원시 특징이 아닌 잔차로 특징의 진화를 모델링하여 안정성을 개선한다.
- 저장된 잔차 이력을 사용하여 현재 잔차를 예측하는 [2/1] 패데와 유사한 유리한 예측기를 적용한다.
- 생략하거나 계산할 때를 결정하기 위한 Trajectory Stableness Indicator(TSI)를 통한 적응 계수 조절.
- 단계 인식 잔차 예측: 초기, 중간 및 후기 제거 단계에 대한 서로 다른 전략.
- 목표 특징을 x_t+1 + 예측 잔차로 재구성하고 예측기를 전체 특징 공간에서 분리한다.
실험 결과
연구 질문
- RQ1큰 타임스텝 간격에서 확산 샘플링 시 패데 기반 잔차 예측이 테일러 기반 외삽보다 우수한가?
- RQ2감소된 노이즈 제거 단계에서 궤적-일관된 잔차 예측이 시각적 품질을 유지하거나 향상시키는가?
- RQ3적응 계수와 단계 인식 전략이 이미지 및 비디오 작업 전반에서 안정적이고 고품질의 샘플링을 제공하는가?
- RQ4기존의 캐시 기반 및 예측 기반 가속 방법과의 효율성 및 품질 측면에서 TC-Padé의 비교는?
- RQ5다양한 확산 모델과 모달리티(텍스트-에서 이미지, 텍스트-에서 비디오, 클래스 조건 이미지 생성)에서 이 접근법이 강건한가?
주요 결과
- TC-Padé는 Flux.1-dev에서 20 노이즈 제거 단계에서 최대 2.88× 속도 향상을 달성하며 경쟁력 있는 품질 지표를 보인다(FID 24.14, CLIP 31.82, Aesthetic 0. ?).
- Wan2.1-1.3B에서 TC-Padé(빠름)은 VBench-2.0 60.38%로 지연 속도향상을 1.72× 달성하고 PSNR/SSIM/LPIPS 점수도 우호적이다.
- ImageNet 256×256에서 DiT-XL/2와 함께 TC-Padé(빠름)는 지연 속도 1.46× 증가, FLOPs 감소 1.64×를 달성하며 FID-50k 6.93 및 IS 185.12를 기록한다.
- 변성 연구에서 블록 단위 잔차 캐싱이 최적이며, 더 낮은 TSI 임계값이 품질 손실이 작으면서 속도를 증가시킨다.
- 양자화(deployment with quantization)로 바닥 대비 최대 약 2.5×의 종합 속도 향상을 보이며 품질 손실은 최소화된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.