QUICK REVIEW

[論文レビュー] Learned Image Compression with Mixed Transformer-CNN Architectures

Jinming Liu, Heming Sun|arXiv (Cornell University)|Mar 27, 2023

Advanced Data Compression Techniques被引用数 11

ひとこと要約

論文は並列の Transformer-CNN Mixture (TCM) ブロックと、エントロピーモデル用のパラメータ効率的な Swin-transformer ベースのアテンション（SWAtten）を導入し、Kodak、Tecnick、CLIC データセットにおいて VVC と比較して最先端のレート-歪み性能を達成する。

ABSTRACT

Learned image compression (LIC) methods have exhibited promising progress and superior rate-distortion performance compared with classical image compression standards. Most existing LIC methods are Convolutional Neural Networks-based (CNN-based) or Transformer-based, which have different advantages. Exploiting both advantages is a point worth exploring, which has two challenges: 1) how to effectively fuse the two methods? 2) how to achieve higher performance with a suitable complexity? In this paper, we propose an efficient parallel Transformer-CNN Mixture (TCM) block with a controllable complexity to incorporate the local modeling ability of CNN and the non-local modeling ability of transformers to improve the overall architecture of image compression models. Besides, inspired by the recent progress of entropy estimation models and attention modules, we propose a channel-wise entropy model with parameter-efficient swin-transformer-based attention (SWAtten) modules by using channel squeezing. Experimental results demonstrate our proposed method achieves state-of-the-art rate-distortion performances on three different resolution datasets (i.e., Kodak, Tecnick, CLIC Professional Validation) compared to existing LIC methods. The code is at https://github.com/jmliu206/LIC_TCM.

研究の動機と目的

局所的なCNNモデリングと非局所的なトランスフォーマーモデリングを組み合わせて LIC の RD 性能を改善する動機づけ。
複雑さを制御可能なCNNとトランスフォーマーの特徴を融合する、効率的な並列TCMブロックを設計する。
パラメータを削減しつつ性能を維持するため、SWAttenとチャネル圧縮を用いたチャネル単位のエントロピーモデルを開発する。
複数データセット（Kodak、Tecnick、CLIC）で最先端のRD性能を示し、複雑さを分析する。
TCMとSWAttenのRD利得への寄与を理解するためのアブレーションを提供する。

提案手法

特徴をCNN経路とトランスフォーマー経路に分割し、1x1畳み込みと連結で統合し、非局所モデリングのために2段階のSwin Transformer（窓付きと移動窓）を用いる並列 Transformer-CNN Mixture（TCM）ブロックを提案する。
メインパスの残差ブロックの後、およびハイパープリオリティパス内にTCMブロックを組み込み、局所情報と非局所情報を統合する。
パラメータ効率的なSWAttenモジュールを備えたチャネルワイズ自己回帰エントロピーモデルを導入し、エントロピーモデルの入力チャネルを削減するためにチャネル圧縮を用いる。
速度とRD性能のバランスをとるため、エントロピーモデルのスライス数を10から5に削減し、SWAttenで128チャネルにチャネル圧縮を適用する。
ラテンツyとzのエントロピー項および歪み項（MSEまたはMS-SSIM）を組み合わせたRD損失と、ラグランジュ乗数λを用いて訓練する。
yの各スライスに対してガウスパラメータを推定するハイパープリオリティと文脈ベースの精緻化を備えたRDフレームワークを提供する。

実験結果

リサーチクエスチョン

RQ1 parallel Transformer-CNN mixture (TCM) ブロックは、複雑さが一定の場合、トランスフォーマーのみやCNNのみの LIC モデルと比較して RD 性能を改善するか。
RQ2チャネル圧縮を用いたパラメータ効率的な SWAtten モジュールは、モデルサイズを大幅に膨らませることなくエントロピー模型に RD 利得を提供できるか。
RQ3学習済み画像圧縮において、主経路とハイパープリオリティ経路の両方に TCM ブロックを適用する RD の利点は何か。
RQ4提案手法は、PSNR と MS-SSIM の両方で、VVC (VTM-12.1) と比較して Kodak, Tecnick, CLIC の標準 LIC ベンチマークでどう機能するか。
RQ5エントロピー分割数の削減とチャネル圧縮の導入が RD と計算効率に与える影響は何か。

主な発見

本手法は Kodak、Tecnick、CLIC データセットで最先端のRD性能を達成し、VVC (VTM-12.1) をそれぞれ BD-rate 12.30%、13.71%、11.85% 上回る。
SOTA 手法と比較して、大規模モデルは同一ビットレートで Kodak の PSNR を最大約0.4 dB、MS-SSIM を約0.5 dB向上させる。
SWAttenモジュールは情報損失を低減し、代表的なKodakサンプルで εs を 0.451/0.422 から 0.389/0.365 に低下させる。
SWAtten内のチャネル圧縮戦略により、パラメータとFLOPを削減しつつ競争力のあるBD-rate性能を維持する。
Transformer-CNN Mixture（TCM）ブロックは、TransformerのみおよびCNNのみのベースラインに対してRD利得を提供し、局所モデリングと非局所モデリングを組み合わせる利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。