QUICK REVIEW

[論文レビュー] Text + Sketch: Image Compression at Ultra Low Rates

Eric Lei, Yiğit Berkay Uslu|arXiv (Cornell University)|Jul 4, 2023

Generative Adversarial Networks and Image Synthesis被引用数 8

ひとこと要約

本論文は、事前学習済みの text-to-image モデルを用いた PIC（文本変換符号化）と側情報としてのスケッチを追加する PICS を組み合わせ、エンドツーエンド学習なしで超低ビットレートでも意味的に忠実な画像再構成を実現する。

ABSTRACT

Recent advances in text-to-image generative models provide the ability to generate high-quality images from short text descriptions. These foundation models, when pre-trained on billion-scale datasets, are effective for various downstream tasks with little or no further training. A natural question to ask is how such models may be adapted for image compression. We investigate several techniques in which the pre-trained models can be directly used to implement compression schemes targeting novel low rate regimes. We show how text descriptions can be used in conjunction with side information to generate high-fidelity reconstructions that preserve both semantics and spatial structure of the original. We demonstrate that at very low bit-rates, our method can significantly improve upon learned compressors in terms of perceptual and semantic fidelity, despite no end-to-end training.

研究の動機と目的

超低ビットレートで大規模な text-to-image モデルを活用して画像圧縮を動機づけ・実現する。
テキスト記述の送信と最小限のサイド情報で、画像の意味論と構造を保持できることを示す。
スケッチをサイド情報として追加することで、非常に低ビットレートで構造的忠実性が改善されることを示す。
エンドツーエンド学習を必要とせず、semantic/perceptual 指標でいくつかの最先端生成圧縮器を上回ることを強調する。

提案手法

事前学習済みの text-to-image モデル（Stable Diffusion）を用いて、CLIP 空間でのプロンプト反転によって得られるロスレス圧縮テキストプロンプトから画像を再構成する（PIC）。
追加の空間条件化マップ（スケッチ）を、学習された非線形変換コーダ（NTC）で圧縮してデコーダ（ControlNet）を導くことで、空間構造を保持する（PICS）。
PIC と PICS を、標準データセット（Kodak、CLIC 2021、DIV2K）上で HiFiC および MS-SSIM 調整済み NTC ベースラインと比較する。
CLIP ベースの意味論的類似度を知覚/意味的品質の代理指標として、さらに非参照指標の FID と KID を評価する。
PIC は非常に低いレート（約0.002-0.003 bpp）で動作することを示し、PICS がレート-知覚・レート-歪みのトレードオフを改善することを示す。

実験結果

リサーチクエスチョン

RQ1超低ビットレートの画像圧縮で、既製の text-to-image モデルを用いた文本変換符号化で意味内容を保持できるか。
RQ2空間条件化スケッチをサイド情報として追加すると、超低ビットレートで再構成の構造忠実性が向上するか。
RQ3PIC および PICS は、超低ビットレートにおける意味論的・知覚的品質の点で最先端の生成圧縮器と比較してどうか。
RQ4この領域で競争力のある結果を得るためにエンドツーエンド学習は必須か。

主な発見

PIC は意味情報を保持しつつ約0.002-0.003 bpp の非常に低いレートを達成する。
PICS（テキスト＋スケッチ）は極めて低レート領域で PIC および HiFiC よりもレート-知覚・レート-歪みのトレードオフを改善する。
PIC は粗い意味概念を保持する一方、PICS はサイド情報としてスケッチをエンコードすることで構造保存を改善する。
NTC ベースのベースラインは超低レートでぼやけがちであり、HiFiC はリアリズムを向上させるが、グラウンドトゥルースとはスタイル/テクスチャが異なる場合がある。
PICS は高レベルの空間構造を再構成でき、シャープさが優れる一方で、テクスチャや色は元画像と異なる場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。