[論文レビュー] Learned Image Compression with Mixed Transformer-CNN Architectures
論文は並列の Transformer-CNN Mixture (TCM) ブロックと、エントロピーモデル用のパラメータ効率的な Swin-transformer ベースのアテンション(SWAtten)を導入し、Kodak、Tecnick、CLIC データセットにおいて VVC と比較して最先端のレート-歪み性能を達成する。
Learned image compression (LIC) methods have exhibited promising progress and superior rate-distortion performance compared with classical image compression standards. Most existing LIC methods are Convolutional Neural Networks-based (CNN-based) or Transformer-based, which have different advantages. Exploiting both advantages is a point worth exploring, which has two challenges: 1) how to effectively fuse the two methods? 2) how to achieve higher performance with a suitable complexity? In this paper, we propose an efficient parallel Transformer-CNN Mixture (TCM) block with a controllable complexity to incorporate the local modeling ability of CNN and the non-local modeling ability of transformers to improve the overall architecture of image compression models. Besides, inspired by the recent progress of entropy estimation models and attention modules, we propose a channel-wise entropy model with parameter-efficient swin-transformer-based attention (SWAtten) modules by using channel squeezing. Experimental results demonstrate our proposed method achieves state-of-the-art rate-distortion performances on three different resolution datasets (i.e., Kodak, Tecnick, CLIC Professional Validation) compared to existing LIC methods. The code is at https://github.com/jmliu206/LIC_TCM.
研究の動機と目的
- 局所的なCNNモデリングと非局所的なトランスフォーマーモデリングを組み合わせて LIC の RD 性能を改善する動機づけ。
- 複雑さを制御可能なCNNとトランスフォーマーの特徴を融合する、効率的な並列TCMブロックを設計する。
- パラメータを削減しつつ性能を維持するため、SWAttenとチャネル圧縮を用いたチャネル単位のエントロピーモデルを開発する。
- 複数データセット(Kodak、Tecnick、CLIC)で最先端のRD性能を示し、複雑さを分析する。
- TCMとSWAttenのRD利得への寄与を理解するためのアブレーションを提供する。
提案手法
- 特徴をCNN経路とトランスフォーマー経路に分割し、1x1畳み込みと連結で統合し、非局所モデリングのために2段階のSwin Transformer(窓付きと移動窓)を用いる並列 Transformer-CNN Mixture(TCM)ブロックを提案する。
- メインパスの残差ブロックの後、およびハイパープリオリティパス内にTCMブロックを組み込み、局所情報と非局所情報を統合する。
- パラメータ効率的なSWAttenモジュールを備えたチャネルワイズ自己回帰エントロピーモデルを導入し、エントロピーモデルの入力チャネルを削減するためにチャネル圧縮を用いる。
- 速度とRD性能のバランスをとるため、エントロピーモデルのスライス数を10から5に削減し、SWAttenで128チャネルにチャネル圧縮を適用する。
- ラテンツyとzのエントロピー項および歪み項(MSEまたはMS-SSIM)を組み合わせたRD損失と、ラグランジュ乗数λを用いて訓練する。
- yの各スライスに対してガウスパラメータを推定するハイパープリオリティと文脈ベースの精緻化を備えたRDフレームワークを提供する。
実験結果
リサーチクエスチョン
- RQ1 parallel Transformer-CNN mixture (TCM) ブロックは、複雑さが一定の場合、トランスフォーマーのみやCNNのみの LIC モデルと比較して RD 性能を改善するか。
- RQ2チャネル圧縮を用いたパラメータ効率的な SWAtten モジュールは、モデルサイズを大幅に膨らませることなくエントロピー模型に RD 利得を提供できるか。
- RQ3学習済み画像圧縮において、主経路とハイパープリオリティ経路の両方に TCM ブロックを適用する RD の利点は何か。
- RQ4提案手法は、PSNR と MS-SSIM の両方で、VVC (VTM-12.1) と比較して Kodak, Tecnick, CLIC の標準 LIC ベンチマークでどう機能するか。
- RQ5エントロピー分割数の削減とチャネル圧縮の導入が RD と計算効率に与える影響は何か。
主な発見
- 本手法は Kodak、Tecnick、CLIC データセットで最先端のRD性能を達成し、VVC (VTM-12.1) をそれぞれ BD-rate 12.30%、13.71%、11.85% 上回る。
- SOTA 手法と比較して、大規模モデルは同一ビットレートで Kodak の PSNR を最大約0.4 dB、MS-SSIM を約0.5 dB向上させる。
- SWAttenモジュールは情報損失を低減し、代表的なKodakサンプルで εs を 0.451/0.422 から 0.389/0.365 に低下させる。
- SWAtten内のチャネル圧縮戦略により、パラメータとFLOPを削減しつつ競争力のあるBD-rate性能を維持する。
- Transformer-CNN Mixture(TCM)ブロックは、TransformerのみおよびCNNのみのベースラインに対してRD利得を提供し、局所モデリングと非局所モデリングを組み合わせる利点を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。