Skip to main content
QUICK REVIEW

[論文レビュー] Variational image compression with a scale hyperprior

Johannes Ballé, David Minnen|arXiv (Cornell University)|Feb 1, 2018
Image and Signal Denoising Methods参考文献 15被引用数 1,085
ひとこと要約

スケールハイパーパリアを導入して潜在依存関係をモデル化するエンドツーエンドの変分オートエンコーダによる画像圧縮法で、ANNベースの手法の中でも最先端のMS-SSIMと高いPSNR性能を達成します。

ABSTRACT

We describe an end-to-end trainable model for image compression based on variational autoencoders. The model incorporates a hyperprior to effectively capture spatial dependencies in the latent representation. This hyperprior relates to side information, a concept universal to virtually all modern image codecs, but largely unexplored in image compression using artificial neural networks (ANNs). Unlike existing autoencoder compression methods, our model trains a complex prior jointly with the underlying autoencoder. We demonstrate that this model leads to state-of-the-art image compression when measuring visual quality using the popular MS-SSIM index, and yields rate-distortion performance surpassing published ANN-based methods when evaluated using a more traditional metric based on squared error (PSNR). Furthermore, we provide a qualitative comparison of models trained for different distortion metrics.

研究の動機と目的

  • 潜在コードの空間的依存性を捉えるハイパープライヤを用いたエンドツーエンドの変分画像圧縮モデルを開発する。
  • レート–歪み損失を最小化するよう、ハイパープライヤをオートエンコーダとともに共同訓練する。
  • PSNRおよびMS-SSIMにおける性能を、既存のANNベース手法および従来のコーダと比較して評価する。
  • 再構成品質とアーティファクトに対する、異なる歪み指標での訓練の影響を分析する。

提案手法

  • 分析変換 ga(x; φg) を用いて潜在 y を生成し、合成変換 gs(ˆy; θg) を用いて x を再構成する。
  • 潜在スケールを z でモデリングし、hs によって ˜σ を予測して prior p˜y|˜z を階層的に条件付けすることで、スケールハイパープライヤを導入する。
  • q(˜y, ˜z | x) を一様乱数の積としてモデル化し、推論とバックプロパゲーションを扱いやすくする。
  • 量子化の代わりに和の一様ノイズを加えた微分可能な代理法を用いて訓練し、レートと歪みの項を含むKL分布情報量基準 (KL-divergence) に基づく目的関数を最適化する。
  • 事前分布 p˜y|ψ および p˜z|ψ に対して非パラメトリックで完全に因子分解された密度モデルを用いて、エンドツーエンド学習を可能にする。
  • ˆz(サイド情報)を算術符号化でエンコードし、デコーダでそれを用いて ˆσ を取得し、ˆy を正確にデコードする。

実験結果

リサーチクエスチョン

  • RQ1潜在スケールのハイパープライヤは、因子分解された事前分布と比較してレート–歪み性能を改善しますか?
  • RQ2空間的に変化するスケールに潜在事前分布を条件付けると、圧縮効率にどのような影響がありますか?
  • RQ3異なる歪み指標(PSNR 対 MS-SSIM)で最適化することが、視覚品質やアーティファクトにどのような影響を与えますか?
  • RQ4ハイパープライヤの利点を得るには、どの程度のサイド情報 (ˆz) が必要ですか?

主な発見

  • ハイパープライヤモデルは Kodak で最先端の MS-SSIM を達成し、その指標において従来のコーデックや従来の ANN 手法を上回る。
  • 平方誤差を最適化した場合、因子分解された事前分布モデルは強い PSNR 性能を示し、いくつかの従来のコーダや ANN 手法に近づくか上回る。一方、ハイパープライヤは追加の改善を提供。
  • ハイパープライヤのサイド情報は総ビットレートのごく一部にとどまり(高ビットレートでも 0.1 bpp 未満)、それでも顕著なレート–歪みの改善をもたらす。
  • 同じモデルを MS-SSIM 損失で訓練すると、平方誤差で訓練した場合とは異なるアーティファクトパターンになり、歪み指標間の定性的差異を浮き彫りにする。
  • ハイパープライヤは、レート–歪みのトレードオフ全般で因子分解された事前分布モデルを一貫して上回り、周辺分布に対して事前分布を合わせる重要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。