QUICK REVIEW

[論文レビュー] Efficient Video Diffusion with Sparse Information Transmission for Video Compression

Mingde Zhou, Zheng Chen|arXiv (Cornell University)|Mar 19, 2026

Image and Video Quality Assessment被引用数 0

ひとこと要約

Diff-SIT は Sparse Temporal Encoding (STEM) と one-step diffusion-based reconstruction (ODFTE) を組み合わせ、超低ビットレートで知覚品質と時間的一貫性の最先端を達成します。

ABSTRACT

Video compression aims to maximize reconstruction quality with minimal bitrates. Beyond standard distortion metrics, perceptual quality and temporal consistency are also critical. However, at ultra-low bitrates, traditional end-to-end compression models tend to produce blurry images of poor perceptual quality. Besides, existing generative compression methods often treat video frames independently and show limitations in time coherence and efficiency. To address these challenges, we propose the Efficient Video Diffusion with Sparse Information Transmission (Diff-SIT), which comprises the Sparse Temporal Encoding Module (STEM) and the One-Step Video Diffusion with Frame Type Embedder (ODFTE). The STEM sparsely encodes the original frame sequence into an information-rich intermediate sequence, achieving significant bitrate savings. Subsequently, the ODFTE processes this intermediate sequence as a whole, which exploits the temporal correlation. During this process, our proposed Frame Type Embedder (FTE) guides the diffusion model to perform adaptive reconstruction according to different frame types to optimize the overall quality. Extensive experiments on multiple datasets demonstrate that Diff-SIT establishes a new state-of-the-art in perceptual quality and temporal consistency, particularly in the challenging ultra-low-bitrate regime. Code is released at https://github.com/MingdeZhou/Diff-SIT.

研究の動機と目的

超低ビットレート動画圧縮における知覚品質と時間的一貫性の向上を動機づける。
フレームを疎にエンコードし、再構成を生成拡散に依存させる戦略を開発する。
独立して処理するのではなく、フレーム列を全体として処理して時間的相関を活用する。
背骨フレームとMVフレーム間で再構成の強度を適応させる様に拡散をフレームタイプ情報で誘導する。
標準データセットで最先端の知覚指標と時間的一貫性を示す。

提案手法

入力動画をバックボーン(I/P)フレームとMVフレームに分割する。バックボーンフレームはI/Pエンコーディングで、MVは低ビットレートのフロー情報でエンコードする。
Sparse Temporal Encoding Module (STEM) を用いてバックボーンフレームを再構成し、MVフレームは光学フローで動きベクトルを予測/エンコードし、MVフレームをワープして取得する。
中間再構成シーケンスを組み立て、それを One-Step Video Diffusion with Frame Type Embedder (ODFTE) に入力して全体的でワンショットの拡散ベースの精製を行う。
Frame Type Embedder (FTE) はフレームタイプ(I/P/MV)を示すタイプ embedding を作成し、拡散プロセスを条件付けて適応的生成強度を適用する。
ODFTE は事前学習済みの Diffusion Transformer (DiT) を基に、固定タイムステップで単一の精製 latent をデノイズ化し、タイプ embedding によって導かれた後、Wan 2.1 デコーダで最終シーケンスを出力する。

実験結果

リサーチクエスチョン

RQ1ビデオフレームの疎エンコーディング戦略は、知覚品質を損なうことなくビットレートを削減できるか。
RQ2全体的なワンステップ拡散モデルは、フレームごと拡散法よりも時間的一貫性とディテール合成を改善するか。
RQ3拡散プロセスをフレームタイプ情報(I/P/MV)で条件付けすることで、より良い全体品質のための適応再構成強度を実現できるか。
RQ4バックボーンフレーム密度とMVフレームのビットレートのトレードオフは、時間的一貫性を維持する上でどうなるか。

主な発見

Diff-SIT は複数のデータセットで最先端の知覚品質と時間的一貫性を達成し、特に超低ビットレートで顕著。
STEM は疎結合なバックボーンフレームを完全にエンコードし、低ビットレートの MV 情報を伝送することでビットレートの著しい節約を提供。
Frame Type Embedder (FTE) を用いたワンステップ拡散プロセスは、マルチステップ拡散よりも大幅に低遅延で競争力のある知覚指標を示す。
フレームタイプ条件付けは適応的デノイズを可能にし、バックボーンフレーム情報を保持しつつ MV フレームを効果的に精製。
バックボーンフレーム間の2つの MV フレームのバランスは、知覚品質とビットレートのトレードオフを最適化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。