QUICK REVIEW

[論文レビュー] Towards image compression with perfect realism at ultra-low bitrates

Marlène Careil, Matthew J. Muckley|arXiv (Cornell University)|Oct 16, 2023

Advanced Image Processing Techniques被引用数 8

ひとこと要約

PerCoはベクトル量子化潜在表現とテキストキャプションに基づく拡散デコーダを用い、超低ビットレートで知覚的にリアリスティックな画像再構成を実現。非常に低いビット/ピクセルで最先端のコーデックをリアリズム指標で上回る。

ABSTRACT

Image codecs are typically optimized to trade-off bitrate \vs distortion metrics. At low bitrates, this leads to compression artefacts which are easily perceptible, even when training with perceptual or adversarial losses. To improve image quality and remove dependency on the bitrate, we propose to decode with iterative diffusion models. We condition the decoding process on a vector-quantized image representation, as well as a global image description to provide additional context. We dub our model PerCo for 'perceptual compression', and compare it to state-of-the-art codecs at rates from 0.1 down to 0.003 bits per pixel. The latter rate is more than an order of magnitude smaller than those considered in most prior work, compressing a 512x768 Kodak image with less than 153 bytes. Despite this ultra-low bitrate, our approach maintains the ability to reconstruct realistic images. We find that our model leads to reconstructions with state-of-the-art visual quality as measured by FID and KID. As predicted by rate-distortion-perception theory, visual quality is less dependent on the bitrate than previous methods.

研究の動機と目的

伝統的なレート-歪みトレードオフを超えて、非常に低ビットレートでもリアリズムを維持する画像圧縮を動機づける。
圧縮潜在表現からリアルな画像を再構成する拡散モデルベースのデコーダを導入する。
ローカル潜在表現とグローバルなテキスト画像記述の両方で条件付けを強化する。
KodakとMS-COCO 30kで最先端コーデックと比較してリアリズムと意味の保持を評価する。

提案手法

VQ-VAE風のハイパープライヤを組み込んだ潜在拡散モデル（LDM）エンコーダを介して画像をローカルおよびグローバル潜在へエンコードする。
ハイパー潜在を量子化し、均一コードと共に伝送してビットストリームを形成する。
拡散ベースのデコーダを、量子化されたローカル特徴と画像を記述するロスレス伝送テキストキャプションの両方で条件付けする；テキスト条件付けにはクロスアテンションを適用する。
拡散再構成損失（拡散ベースの歪み項を含む）と任意のLPIPSベースの知覚損失を用いて訓練する；推論時にはガイダンススケールを用いた分類子なしガイダンスを適用する。
事前学習済みのテキスト条件付き拡散モデルを活用し、オートエンコーダの重みを凍結させ、OpenImagesでのみハイパーエンコーダと拡散コンポーネントを微調整する。

実験結果

リサーチクエスチョン

RQ1テキストと局所的視覚文脈で条件付けされた拡散ベースのデコーダは、超低ビットレート（0.003 bpp程度）で現実的な再構成を実現できるか。
RQ2ベクトル量子化潜在表現とグローバルキャプションの組み合わせは、低速率でリアリズムと意味の保持を改善するか。
RQ3PerCoのリアリズム指標（FID/KID）と意味指標（CLIP, mIoU）は、ベースラインと比較してさまざまなビットレートでどのように振る舞うか。
RQ4 conditioningモダリティ（テキストと空間）と分類子なしガイダンスが再構成品質に与える影響はどの程度か。
RQ5高解像度での制限は何で、PerCoのボトルネックを明らかにするアブレーションは何か。

主な発見

PerCoはKodak/MS-COCO 30kで0.0032 bppのリアルな再構成を達成し、低ビットレートで最先端のFIDとKIDスコアを達成する。
PerCoのFIDとKID曲線はビットレートに対して緩やかで、リアリズムとビットレートの結びつきが分離されていることを示す。
意味関連指標（CLIP, mIoU）は、低ビットレートで特にベースラインと比較して改善する。
アブレーション解析では、テキスト条件付けと空間条件付けの両方がFIDとmIoUの改善に寄与することが示され、真のキャプションはBLIP/IDEFICSキャプションと同様の傾向を示す。
量子化のボトルネックが性能を大きく支配しており、拡散モデル自体よりも影響が大きい；LDMオートエンコーダは顕著な利得を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。