QUICK REVIEW

[논문 리뷰] Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Jiajun He, Zongyu Guo|arXiv (Cornell University)|2026. 03. 08.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

본 논문은 시각 신호를 고정된 확산 기반 모델에 하나의 벡터 LoRA 적응을 통해 암시적 함수로 표현하여, 강한 지각 품질과 추론 시 제어를 가능하게 하는 컴팩트한 시각 압축(예: 81프레임 비디오)을 가능하게 한다.

ABSTRACT

Modern visual generative models acquire rich visual knowledge through large-scale training, yet existing visual representations (such as pixels, latents, or tokens) remain external to the model and cannot directly exploit this knowledge for compact storage or reuse. In this work, we introduce a new visual representation framework that encodes a signal as a function, which is parametrized by low-rank adaptations attached to a frozen visual generative model. Such implicit representations of visual signals, extit{e.g.}, an 81-frame video, can further be hashed into a single compact vector, achieving strong perceptual video compression at extremely low bitrates. Beyond basic compression, the functional nature of this representation enables inference-time scaling and control, allowing additional refinement on the compression performance. More broadly, as the implicit representations directly act as a function of the generation process, this suggests a unified framework bridging visual compression and generation.

연구 동기 및 목표

시각 신호를 생성 과정을 기술하는 함수로 인코딩하는 프레임워크를 동기 부여하고 개발한다.
사전 학습된 diffusion foundation 모델을 사전 정보로 활용하여 컴팩트하고 고품질의 표현을 달성한다.
하나의 적응 벡터가 복잡한 신호(예: 비디오)를 효과적으로 압축할 수 있음을 보인다.
함수적 표현을 통해 추론 시 제어 및 재구성을 다듬을 수 있도록 한다.

제안 방법

고정된 확산 모델을 사용하여 캡션에 조건화된 함수로 신호를 표현한다.
잡음을 x로 생성하기 위해 흐름 매칭 목적을 통해 시간 의존적 벡터 필드 v_theta를 학습한다.
저랭크 업데이트를 갖는 LoRA를 사용하여 하나의 벡터 적응으로 함수를 압축한다.
적응을 해시 및 양자화하여 엔트로피 인식 학습으로 컴팩트한 벡터 v로 만든다.
공유 PRNG를 사용하여 여러 궤적을 샘플링하고 최적의 것을 선택해 추론 시 스케일링을 제공한다.
최적의 적응이 사전 학습된 프로세스에서 최소한으로 편차를 보인다는 KL 기반 MDL 합리화를 설명한다.

실험 결과

연구 질문

RQ1시각 신호가 확산 기반 모델이 생성하는 함수로 효과적으로 표현될 수 있는가?
RQ2지각 품질을 손상시키지 않으면서 어떻게 함수를 매우 컴팩트한 적응 벡터로 압축할 수 있는가?
RQ3제한된 비트레이트 제약 하에서 추론 시 스케일링이 재구성 품질을 향상시키는가?
RQ4암시적 표현이 편집이나 합성 작업을 위한 기억과 같은 지속성 및 제어 가능한 생성을 지원할 수 있는가?

주요 결과

하나의 벡터 LoRA 적응을 통한 암시적 표현은 UVG 및 HEVC 데이터셋과 같은 비디오 벤치마크에서 강한 지각 압축을 가능하게 한다.
단계당 다중 샘플링으로의 추론 시 스케일링은 아주 작은 비트레이트 비용으로도 상당한 지각적 향상을 가져온다.
하나의 해시된 벡터로 81프레임 비디오의 내용을 인코딩하고 고정된 확산 모델을 통해 재구성을 지원할 수 있다.
이 방법은 낮은 비트레이트에서 기준선 대비 시계열 일관된 재구성과 향상된 시각적 충실도를 제공한다.
적응은 지속적인 시각 기억처럼 작용하여 기본 모델 재훈련 없이도 텍스트 프롬프트를 통해 편집이나 합성을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.