QUICK REVIEW

[論文レビュー] Deep Contextual Video Compression

Jiahao Li, Bin Li|arXiv (Cornell University)|Sep 30, 2021

Advanced Image Processing Techniques参考文献 37被引用数 115

ひとこと要約

tldr: 本論文は DCVC を紹介する。条件付きコーディングフレームワークで、高次元の特徴空間の文脈を MEMC を介して学習し、ビデオ圧縮の文脈で活用する。前駆の DL ベース手法および x265 に比べて substantial bitrate savings を達成。エンコード・デコード・エントロピーモデリングを学習可能な文脈を用いて共同最適化する。

ABSTRACT

Most of the existing neural video compression methods adopt the predictive coding framework, which first generates the predicted frame and then encodes its residue with the current frame. However, as for compression ratio, predictive coding is only a sub-optimal solution as it uses simple subtraction operation to remove the redundancy across frames. In this paper, we propose a deep contextual video compression framework to enable a paradigm shift from predictive coding to conditional coding. In particular, we try to answer the following questions: how to define, use, and learn condition under a deep video compression framework. To tap the potential of conditional coding, we propose using feature domain context as condition. This enables us to leverage the high dimension context to carry rich information to both the encoder and the decoder, which helps reconstruct the high-frequency contents for higher video quality. Our framework is also extensible, in which the condition can be flexibly designed. Experiments show that our method can significantly outperform the previous state-of-the-art (SOTA) deep video compression methods. When compared with x265 using veryslow preset, we can achieve 26.0% bitrate saving for 1080P standard test videos.

研究の動機と目的

残差符号化を超える、学習可能な文脈（条件）をビデオ圧縮のために定義・学習する。
エンコーダ、デコーダ、エントロピーモデルのすべてに影響を与える条件付けフレームワークを統一的に設計する。
特徴空間の運動補償文脈を活用して再構成を改善し、特に高周波成分を向上させる。
時系列 priors を用いた条件付きコーディングが、残差ベースの手法を上回るレート歪み性能を示す。

提案手法

現在フレームを、特徴空間 MEMC によって前のデコード済みフレームから導出される学習済みコンテキスト – bar{x}_t に条件付けて符号化する条件付きコーディングベースのフレームワークを提案する。
コンテキストをピクセル領域の予測ではなく高次元の特徴空間情報として定義し、エンコーダ、デコーダ、エントロピーモデルへ情報を供給できるようにする。
エントロピーモデルにはハイパープライヤーと自己回帰部とともに時系列 priors を用いて潜在コード分布とビットレートを推定する。
前のフレームの特徴抽出表現を MEMC で学習された動きベクトルを用いてワープさせ、その後に精製ネットワークを適用して bar{x}_t を生成することで文脈を学習する。
L = Λ D + R というレート歪み目的関数で学習する。ここで D は歪み（MSE または MS-SSIM）、R はクロスエントロピーに基づくビットレートである。

実験結果

リサーチクエスチョン

RQ1学習可能な高次元の文脈は、単純な残差減算を超えてフレーム間符号化を改善できるだろうか？
RQ2MEMC を特徴空間に組み込み、より良い圧縮のための文脈抽出を導くにはどうすればよいか？
RQ3条件付きコーディングで最良のレート歪み性能を発揮するエントロピーモデルのアーキテクチャは何か（ハイパープライア、自己回帰、時系列 priors）？
RQ4時系列 priors は圧縮利得を損なうことなく、より高速で並列化可能なエントロピーコーディングを可能にするか？
RQ5DCVC は解像度やコンテンツタイプに応じて、最先端の DL ベースコデックおよび従来のコーデックとどう比較されるか？

主な発見

方法	MCL-JCV	UVG	HEVC クラス B	HEVC クラス C	HEVC クラス D	HEVC クラス E
DCVC (proposed)	-23.9%	-25.3%	-26.0%	-5.8%	-17.5%	-11.9%
DVCPro [4]	-4.1%	-7.9%	-9.0%	7.2%	-6.9%	17.2%
x265 (veryslow)	0.0%	0.0%	0.0%	0.0%	0.0%	0.0%
DVC [3]	13.3%	17.2%	7.9%	15.1%	7.2%	21.1%
x264 (veryslow)	32.7%	30.3%	35.0%	19.9%	15.5%	50.0%

DCVC は従来の DL ベースコーデックおよび x265 veryslow に対して顕著なビットレート削減を達成。例えば 1080p の標準テスト動画で x265 veryslow に対し 26.0%。
DCVC は DVCPro を、テストデータセットとビットレート帯域で上回り、MCL-JCV と UVG (1080p) で PSNR の BD-Bitrate 改善が最大で 26.0%。」
高解像度のビデオではより大きな利得が見られ、特徴空間の文脈が高周波成分に関するより豊かな情報を運ぶ。
時系列 priors を用いたエントロピーモデルは、空間 priors の有無にかかわらず競争力のある、あるいは優れた性能を示し、ハイパー priors、時系列 priors、任意の空間 priors を組み合わせた場合が最良の結果になる。
アブレーション実験では、文脈特徴を結合する方が RGB 予測条件付けより大きな利得をもたらし、時系列 priors は条件付きコーディング下で特に結果を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。