Skip to main content
QUICK REVIEW

[논문 리뷰] Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Kaiwen Zhu, Quansheng Zeng|arXiv (Cornell University)|2026. 02. 27.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

이 논문은 MIGM-Shortcut를 도입합니다. 이는 마스크드 이미지 생성에서 특징 업데이트를 예측하기 위해 잠재 제어 역학을 학습하는 경량 신경 모델로, MaskGIT와 Lumina-DiMOO 전반에서 품질 손실을 최소화하면서 최대 약 4–5배의 속도 향상을 가능하게 합니다. 이는 무거운 베이스 모델의 대부분의 단계를 축약 경로로 대체하고, 오류 누적을 제어하기 위해 주기적으로 베이스 모델과 재동기화합니다.

ABSTRACT

Masked Image Generation Models (MIGMs) have achieved great success, yet their efficiency is hampered by the multiple steps of bi-directional attention. In fact, there exists notable redundancy in their computation: when sampling discrete tokens, the rich semantics contained in the continuous features are lost. Some existing works attempt to cache the features to approximate future features. However, they exhibit considerable approximation error under aggressive acceleration rates. We attribute this to their limited expressivity and the failure to account for sampling information. To fill this gap, we propose to learn a lightweight model that incorporates both previous features and sampled tokens, and regresses the average velocity field of feature evolution. The model has moderate complexity that suffices to capture the subtle dynamics while keeping lightweight compared to the original base model. We apply our method, MIGM-Shortcut, to two representative MIGM architectures and tasks. In particular, on the state-of-the-art Lumina-DiMOO, it achieves over 4x acceleration of text-to-image generation while maintaining quality, significantly pushing the Pareto frontier of masked image generation. The code and model weights are available at https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

연구 동기 및 목표

  • Masked Image Generation Models (MIGMs)의 다중 단계 양방향 주의로 인한 비효율성에 대한 동기 부여 및 해결.
  • 과거 특성과 새로 샘플링된 토큰 모두를 활용하여 특징의 진화를 예측하는 가벼운 축약 모델 개발.
  • 대표적인 MIGM 아키텍처(MaskGIT 및 Lumina-DiMOO)에서 제어된 품질 영향과 함께 가속도를 입증합니다.

제안 방법

  • MIGM을 과거 특성과 새로 디코딩된 토큰에 조건부로 학습된 드리프트 S_theta를 통해 잠재 특징이 진화하는 상태 공간 모델로 공식화합니다.
  • 시간 정보를 사인 형태 임베딩과 적응형 층 정규화를 통해 조건화하는 병목이 있는 교차 주의 및 자기 주의 계층으로 구성된 가벼운 축약 모델을 제안합니다.
  • 기본 모델을 고정한 채 실제 다음 특징과 축약 예측 업데이트 간의 평균 제곱 오차(MSE)를 최소화하여 축약 모델을 학습합니다.
  • 추론 시 무거운 베이스 모델의 대부분의 단계를 축약 예측으로 대체하고, 오류 누적을 방지하기 위해 주기적으로 베이스 모델과 재동기화합니다.
  • 특징 궤적이 매끄럽고 샘플링 프로세스가 역학에 결정적으로 정보를 제공함을 실증적으로 입증하여 축약 설계를 정당화합니다.

실험 결과

연구 질문

  • RQ1가벼운 잠재 동역학 모델이 과거 특징과 샘플링된 토큰을 모두 조건으로 둘 때 MIGMs에서 특징의 진화를 정확히 예측할 수 있는가?
  • RQ2생성 품질의 현저한 저하 없이 MIGMs(MaskGIT 및 Lumina-DiMOO)에서 얼마나 많은 가속을 달성할 수 있는가?
  • RQ3축약 모델에서 교차 주의를 통한 샘플링 정보의 통합이 성능에 실질적인 영향을 미치는가?
  • RQ4정해진 계산 예산 하에서 축약 모델의 복잡성과 가속 이득 사이의 트레이드오프는 무엇인가?

주요 결과

MethodConfigurationLatency (ms) ↓Speedup ↑FID ↓
Vanilla8 steps26.11.92 ×9.91
Vanilla9 steps29.41.70 ×8.86
Vanilla11 steps35.91.40 ×7.90
Vanilla13 steps42.51.18 ×7.64
Vanilla15 steps50.11.00 ×7.60
Vanilla32 steps104.60.48 ×8.08
Shortcut15 steps, B=725.91.94 ×8.90
Shortcut15 steps, B=828.81.74 ×8.16
Shortcut32 steps, B=833.71.49 ×7.30
Shortcut32 steps, B=936.81.36 ×6.97
Shortcut32 steps, B=1245.91.09 ×6.84
  • MIGM-Shortcut은 Lumina-DiMOO에서 텍스트-이미지 생성 시 약 4×의 가속을 달성하고 품질 저하가 거의 없음.
  • MaskGIT에서 축약은 더 빠른 속도에서도 일관되게 더 나은 이미지를 생성하며, 동률의 스텝 수에서 바닐라 구성을 능가합니다.
  • Lumina-DiMOO에서 DiMOO-Shortcut은 4–5×의 속도 향상과 함께 경쟁력 있는 ImageReward, CLIPScore, UniPercept-IQA 지표를 달성합니다.
  • 새로 디코딩된 토큰에 조건화될 때 가벼운 백본(교차 주의 + bottleneck를 가진 자기 주의)이 잠재 역학을 포착하는 데 충분합니다.
  • 추론 중에 주기적으로 베이스 모델과 재동기화하면 축약 예측으로 인한 오류 누적을 완화합니다.
  • 샘플링 정보를 포함하는 것의 중요성과 기본 축약 설계의 파레토 최적성을 보여주는 연구 제거 실험(ablation) 결과가 확인됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.