[論文レビュー] Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models
この論文は、凍結された拡散基盤モデル上でワンベクター LoRA 適応を通じて視覚信号を暗黙関数として表現し、視覚圧縮をコンパクトに実現するとともに、 perceptual quality と推論時制御を強化する。
Modern visual generative models acquire rich visual knowledge through large-scale training, yet existing visual representations (such as pixels, latents, or tokens) remain external to the model and cannot directly exploit this knowledge for compact storage or reuse. In this work, we introduce a new visual representation framework that encodes a signal as a function, which is parametrized by low-rank adaptations attached to a frozen visual generative model. Such implicit representations of visual signals, \textit{e.g.}, an 81-frame video, can further be hashed into a single compact vector, achieving strong perceptual video compression at extremely low bitrates. Beyond basic compression, the functional nature of this representation enables inference-time scaling and control, allowing additional refinement on the compression performance. More broadly, as the implicit representations directly act as a function of the generation process, this suggests a unified framework bridging visual compression and generation.
研究の動機と目的
- 視覚信号を生成プロセスを説明する関数としてエンコードするフレームワークを動機づけ、開発する。
- 事前学習済みの拡散基盤モデルを priors として活用し、コンパクトで高品質な表現を達成する。
- 単一の適応ベクトルが複雑な信号(例:動画)を効果的に圧縮できることを示す。
- 推論時制御と再構成のリファインメントを関数表現を通じて可能にする。
提案手法
- caption に条件付けられた信号を凍結済み拡散モデルとして表現する。
- ノイズから x を生成するために時間依存ベクトル場 v_theta を flow-matching 目的で学習する。
- LoRA を用いた低ランク更新で一ベクトル適応として関数を圧縮する。
- 適応をハッシュ化し、エントロピー意識のトレーニングを通じてコンパクトなベクトル v に量子化する。
- 推論時には複数の軌跡をサンプリングして共有 PRNG を用いて最良のものを選択することでスケーリングを提供する。
- KL に基づく MDL 的根拠として、最適な適応は事前学習プロセスからの逸脱を最小化することを説明する。
実験結果
リサーチクエスチョン
- RQ1拡散基盤モデルによって生成される関数として視覚信号を効果的に表現できるか。
- RQ2 perceptual quality を犠牲にせず、関数をどのように高度にコンパクトな適応ベクトルへ圧縮できるか。
- RQ3推論時スケーリングは厳しいビットレート制約下で再構成品質を改善するか。
- RQ4暗黙表現はメモリのような永続性と編集・統合タスクのための制御生成をサポートできるか。
主な発見
- ワンベクトル LoRA 適応による暗黙表現は UVG および HEVC データセットなどの動画ベンチマークで強い perceptual 圧縮を可能にする。
- ステップごとに複数サンプルを用いた推論時スケーリングは、ビットレートの増分コストを抑えつつ perceptual 的な利得を大きく生む。
- 単一のハッシュ化ベクトルは81フレームの動画内容をエンコードし、凍結拡散モデルを介して再構成をサポートできる。
- この手法は低ビットレート下で基準法と比較して視覚的忠実度を向上させ、時間的に一貫した再構成を提供する。
- 適応は永続的な視覚メモリとして機能し、 base モデルの再訓練なしにテキストプロンプトによる編集・統合を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。