QUICK REVIEW

[論文レビュー] High-Fidelity Generative Image Compression

Fabian Mentzer, George Toderici|arXiv (Cornell University)|Jun 17, 2020

Advanced Data Compression Techniques参考文献 49被引用数 214

ひとこと要約

この論文は HiFiC を紹介します、GAN ベースの学習型画像圧縮システムで、高解像度および幅広いビットレートで知覚的に高忠実な再構成を提供し、BPG のような従来のコーデックをユーザ研究と多様な知覚指標で上回ります。

ABSTRACT

We extensively study how to combine Generative Adversarial Networks and learned compression to obtain a state-of-the-art generative lossy compression system. In particular, we investigate normalization layers, generator and discriminator architectures, training strategies, as well as perceptual losses. In contrast to previous work, i) we obtain visually pleasing reconstructions that are perceptually similar to the input, ii) we operate in a broad range of bitrates, and iii) our approach can be applied to high-resolution images. We bridge the gap between rate-distortion-perception theory and practice by evaluating our approach both quantitatively with various perceptual metrics, and with a user study. The study shows that our method is preferred to previous approaches even if they use more than 2x the bitrate.

研究の動機と目的

従来のレート-ディストーション最適化を超える高解像度で、知覚的に忠実な損失圧縮を動機づける。
入力画像と分布再構成を一致させる GAN ベースの圧縮フレームワークを開発する。
複数の知覚指標とユーザ研究を通じて、レート-歪み-知覚理論を実践に橋渡しする。
知覚品質と安定性に影響を与える正規化、生成器/識別器設計、および損失項といったアーキテクチャの選択を評価する。

提案手法

知覚品質を導く条件付き GAN を用いたエンドツーエンド学習圧縮を定式化する。
MSE と LPIPS に基づく知覚歪みを組み合わせた歪み損失と、確率モデルとエントロピーモ coding による学習されたレートを用いる。
トレーニング中に適応的な lambda prime によって平均ビットレートを制御するレートターゲット機構を組み込む。
トレーニングを安定化させるために ChannelNorm 正規化を採用し、InstanceNorm を置換して解像度を跨ぐ一貫性を向上させる。
潜在表現に対して識別器を条件付けして条件付き GAN を形成し、潜在エントロピー推定のためにハイパープリオールベースの確率モデルを使用する。
GAN、知覚損失、生成器容量の効果を分析するために、2 段階の初期化とアブレーション研究で訓練する。

実験結果

リサーチクエスチョン

RQ1GAN ベースの圧縮フレームワークは、どのようにして高解像度入力に対して知覚的に忠実な再構成を達成できるか？
RQ2ニューラル画像圧縮において、レート、歪み、知覚品質のバランスを最もよく取るアーキテクチャと損失関数の選択は何か？
RQ3知覚指標と人間の評価は、ビットレートとデータセットを横断して GAN ベースの圧縮手法の順位付けで一致するか？
RQ4識別器を条件付けし高度な正規化を使用することは、訓練の安定性と知覚的結果にどのように影響するか？

主な発見

HiFiC は、似た程度またはそれより低いビットレートで baseline より高い知覚忠実性を示し、ユーザ調査では HiFiC の再構成を BPG よりもビットレートの 2 倍で好む。
FID、KID、NIQE、LPIPS、PSNR/MS-SSIM などの指標で、GAN ベースの手法は知覚指標を改善する一方で従来の歪み指標を犠牲にし、レート-歪み-知覚理論と整合している。
条件付き識別器と ChannelNorm が訓練を安定化させ、解像度を跨ぐシャープさと一貫性を向上させる。
知覚歪み成分（LPIPS ベース）と GAN 重みを変えると、知覚品質を高めるほど歪みが増大するトレードオフがあり、特に低ビットレートで顕著になる。このトレードオフは beta パラメータで回避可能。
本手法は高解像度画像（最大 2000×2000）にスケールし、定量指標と多様なデータセットでのユーザー嗜好調査で検証されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。