[論文レビュー] Learned Image Compression with Discretized Gaussian Mixture Likelihoods and Attention Modules
本論文はエントロピーモデリングのための離散化ガウス混合尤度と簡略化されたアテンションモジュールを提案し、学習法の中で最先端のレート-ディストーション性能を達成し、VVCと同等のPSNR、優れたMS-SSIMを示す視覚品質を実現する。
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. This project page is at this https URL https://github.com/ZhengxueCheng/Learned-Image-Compression-with-GMM-and-Attention
研究の動機と目的
- エントロピーモデリングを改善することにより、学習済み画像圧縮における冗長性を削減する動機づけ。
- 離散化されたガウス混合尤度を用いた柔軟で精度の高いエントロピーモデルを提案する。
- 過度な訓練コストを伴わずにネットワーク容量を高めるため、軽量なアテンションモジュールを組み込む。
- 従来のコーデックおよび従来の学習法と比較して、標準ベンチマーク(Kodak, CLIC)で最先端の性能を示す。
提案手法
- 潜在コード分布を離散化されたガウス混合尤度でモデル化し、真の周辺分布(p(y|z))をより良く近似する。
- 空間的および文脈的冗長性を捉えるために、ガウス混合を加えたハイパープライオリティフレームワークを使用する。
- 複雑な領域への焦点を強化するため、エンコーダ/デコーダ内に簡略化されたアテンションモジュールを組み込む。
- 複数のラムダに渡り、yとzのビットと歪み項を組み合わせたレート-ディストーション目的関数で訓練する。
- 安定した訓練のため、yの範囲をクリップし、累積確率を用いた離散化畳み込みを用いる。
- 標準データセット上でJPEG、JPEG2000、HEVC/VVC、従来の学習法と比較する。
実験結果
リサーチクエスチョン
- RQ1離散化されたガウス混合尤度は、既存のガウス/ハイパープライオリティ手法よりも正確なエントロピーモデルを提供できるか?
- RQ2アテンションモジュールの統合は、過度な訓練コストを伴わずにレート-ディストーション性能を向上させるか?
- RQ3学習型圧縮法はVVCのPSNR性能にどこまで近づけられるか(MS-SSIM品質を維持または向上させつつ)?
- RQ4ガウス混合尤度を用いた場合のモデル容量(N)がRD性能に与える影響は?
- RQ5提案されたエントロピーモデルを用いた学習法は、Kodakや高解像度データセットで従来のコーデックを上回るか?
主な発見
| モデル | PSNR (dB) | MS-SSIM | レート (bpp) |
|---|---|---|---|
| Joint | 33.435 | 0.980 | 0.533 |
| Ours | 33.623 | 0.981 | 0.519 |
- ガウス混合尤度は小さなスケールを生み出し、空間的冗長性の削減を改善し、エントロピーモデルを向上させる。
- 提案手法は、Kodakおよび高解像度データセットで学習法の中で最先端の性能を達成する。
- 本手法はVVCと同等のPSNRを達成し、既存法と比較してMS-SSIMの品質が優れている。
- 簡略化されたアテンションモジュールは、中程度の訓練コストで性能向上をもたらし、非アテンション系を上回る。
- アブレーション研究により、さまざまな容量設定(N)でガウス混合モデリングの利点が示される。
- Table 1 は Joint vs. Ours を示す:PSNR 33.435 vs 33.623 dB; MS-SSIM 0.980 vs 0.981; Rate 0.533 vs 0.519 bpp。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。