QUICK REVIEW

[논문 리뷰] YODA: Yet Another One-step Diffusion-based Video Compressor

Xingchen Li, Junzhe Zhang|arXiv (Cornell University)|2026. 01. 03.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

YODA는 시간 인식 자동인코더, 조건부 잠재 부호기, 그리고 효율적인 한 단계 디노이징을 위한 선형 Diffusion Transformer를 이용한 한 단계 확산 기반 비디오 코덱을 제안하여 우수한 지각 품질을 달성합니다.

ABSTRACT

While one-step diffusion models have recently excelled in perceptual image compression, their application to video remains limited. Prior efforts typically rely on pretrained 2D autoencoders that generate per-frame latent representations independently, thereby neglecting temporal dependencies. We present YODA--Yet Another One-step Diffusion-based Video Compressor--which embeds multiscale features from temporal references for both latent generation and latent coding to better exploit spatial-temporal correlations for more compact representation, and employs a linear Diffusion Transformer (DiT) for efficient one-step denoising. YODA achieves state-of-the-art perceptual performance, consistently outperforming traditional and deep-learning baselines on LPIPS, DISTS, FID, and KID. Source code will be publicly available at https://github.com/NJUVISION/YODA.

연구 동기 및 목표

시간 상관관계를 활용하여 신경망 비디오 압축의 지각 품질 향상을 촉진한다.
다중 스케일 시간 조건화를 가진 학습 가능한 TA-AE를 개발한다.
잠재 공간의 시공간 맥락을 활용하기 위해 엔트로피 모델링과 함께 조건부 잠재 부호기를 통합한다.
전통적인 U-Net 디노이저를 경량의 Linear Diffusion Transformer로 대체하여 효율적인 한 단계 디노이징을 달성한다.
비트레이트 제약 하에서 TA-AE, CLC, DiT 간의 엔드투엔드 학습을 가능하게 하여 더 나은 속도–품질 트레이드오프를 달성한다.

제안 방법

Temporal-Aware AutoEncoder (TA-AE)는 기준 프레임으로부터 다중 스케일의 시간 특성을 인코더와 디코더에 주입하여 더 컴팩트한 잠재를 생성한다.
Conditional Latent Coder (CLC)는 더 풍부한 시간 맥락을 위해 잠재 채널을 256으로 확장하고 잠재 코딩에 두 단계 엔트로피 모델을 사용한다.
One-Step Denoising with Linear Diffusion Transformer (DiT)는 압축된 잠재에 대해 일관된 한 단계 디노이징을 수행한다.
Three-stage training: Stage I pretrains TA-AE with a composite distortion plus adversarial loss; Stage II jointly trains CLC and DiT with LoRA fine-tuning; Stage III end-to-end fine-tunes all components under rate constraints.

실험 결과

연구 질문

RQ1다중 스케일 시간 조건화를 갖춘 학습 가능한 TA-AE가 프레임 단위 인코더 대비 잠재 압축성 및 지각 품질을 향상시키는가?
RQ2확장된 채널과 시간 참조를 가진 Conditional Latent Coder가 비디오 잠재의 엔트로피 모델링을 개선하는가?
RQ3Linear Diffusion Transformer가 U-Net 기준선에 비해 더 낮은 계산 비용으로 효과적인 한 단계 디노이징과 경쟁력 있는 지각 결과를 제공하는가?
RQ4엔드투엔드의 3단계 학습이 표준 데이터셋에서 속도–품질 성능에 어떤 영향을 주는가?
RQ5YODA가 기존 코덱 및 이전 확산 기반/비디오 학습 기준과 비교하여 지각 지표에서 어떤 성능을 보이는가?

주요 결과

YODA는 벤치마크 대비 UVG, HEVC Class B, MCL-JCV 데이터셋에서 지각 메트릭(LPIPS, DISTS, FID, KID)으로 우수한 성능을 보인다.
DiffVC, DiffVC-OSD, PLVC, GLC-Video, DCVC-RT, HEVC/VVC 기준선 대비 지각 메트릭의 BD-Rate를 크게 줄인다.
다섯 스케일 시간 조건화의 TA-AE가 LPIPS/DISTS 개선에 가장 큰 효과를 보이고, 세 스케일 이후 수익은 감소한다.
CLC의 256채널 잠재는 강력한 성능 향상을 제공하고, 채널을 늘리면 수익이 감소하고 추가 대기 시간이 증가한다.
DiT 이전(Pre-DiT) 시간 조건화가 DiT 이후(Post-DiT) 조건화보다 시간 정보를 보존하는 데 더 효과적이다.
레이트 정규화와 적대적 손실을 포함한 엔드투엔드 학습은 지각적 현실감과 압축 효율성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.