QUICK REVIEW

[論文レビュー] Implicit Neural Video Compression

Yunfan Zhang, Ties van Rozendaal|arXiv (Cornell University)|Dec 21, 2021

Advanced Vision and Imaging被引用数 26

ひとこと要約

本論文は Implicit Pixel Flow (IPF) を提案します。これは、学習された光学フロー場と残差を用いてフレームをワープさせるニューラル implicit 表現ベースのコーデックであり、重みの学習済み整数量化を伴います。

ABSTRACT

We propose a method to compress full-resolution video sequences with implicit neural representations. Each frame is represented as a neural network that maps coordinate positions to pixel values. We use a separate implicit network to modulate the coordinate inputs, which enables efficient motion compensation between frames. Together with a small residual network, this allows us to efficiently compress P-frames relative to the previous frame. We further lower the bitrate by storing the network weights with learned integer quantization. Our method, which we call implicit pixel flow (IPF), offers several simplifications over established neural video codecs: it does not require the receiver to have access to a pretrained neural network, does not use expensive interpolation-based warping operations, and does not require a separate training dataset. We demonstrate the feasibility of neural implicit compression on image and video data.

研究の動機と目的

受信側に大規模な事前学習済みネットワークを保存することを避ける実用的なニューラル映像コーデックを動機づける。
各フレームを座標から RGB へのニューラルネットワークに表現し、ビットレートを削減するために重みを量子化する。
Implicit optical flow フィールドを用いてフレーム間の冗長性を活用し P-フレームを扱う。
ワープされたフレームを改良し歪みを改善する軽量な残差ネットワークを使用する。
外部のトレーニングデータへの依存を排除し、オンデバイス展開を可能にする。

提案手法

各画像/フレームを (x,y) を RGB 値へ写像する f_theta という implicit ネットワークとして表現する。
学習済みの per-channel 固定小数点量子化を用いてネットワーク重みを量子化し、ビットレートを最小化する。
動画を GoP に分け、I-フレームはゼロからエンコード、P-フレームは learned flow h_phi と residual r_psi を用いてエンコードする。
光の流れを入力変位で拡張された入力として扱うことで、入力空間の加法によってワープを可能にする implicit ネットワークとして光フローをモデル化する。
ピクセル歪みと量子化済み重みのビットレートを組み合わせた rate-distortion 目的でエンドツーエンドに訓練する。
RD を最適化するために GoP ごとに残差モデルを含めるか dynamically に決定する。
per-channel 学習済みビット幅量子化を使用し、量子化パラメータをビットストリームにエンコードする。

実験結果

リサーチクエスチョン

RQ1受信側で事前学習済みデコーダなしで、Implicit Neural 表現は画像と映像に対して競争力のある圧縮を達成できるか？
RQ2別個の implicit flow フィールドと小さな残差モデルは P-フレームの効率的なモーション補償を提供するか？
RQ3学習済み整数量子化（チャネルごと）は低ビットレートと許容可能な歪みを達成する上で効果的か？
RQ4フレームごと IPF は伝統的なコーデックと比較して低遅延ストリーミングに適しているか？
RQ5トレーニングデータセットなしで、ドメインを越えて方法は一般化するか？

主な発見

IPF は implicit ネットワークで画像を表現でき、Kodak データセットで low to medium ビットレートで JPEG を上回る。
学習済み per-channel integer quantization はパラメータあたり約 9–10 ビット程度の量子化を実現し、歪み損失を最小限に抑える。
映像では IPF は lowビットレートで MPEG-4 Part 2 と競合し、特定の設定で従来のコーデックに近づくが、全体の RD ではまだ H.264/H.265 に及ばない。
I-フレームは P-フレームより PSNR が 2–5 dB 高いが、全フレームのエンコードのために約 20 倍のビットレートを要する。
残差モデルはしばしばオプションであり、GoP レベルのビットシグナリングが RD パフォーマンスをさらに最適化できる。
残差を GoP ごとに含める動的バリアントは固定構成よりもわずかな RD 改善をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。