QUICK REVIEW

[論文レビュー] EVC: Towards Real-Time Neural Image Compression with Mask Decay

Guohua Wang, Jiahao Li|arXiv (Cornell University)|Feb 10, 2023

Advanced Vision and Imaging被引用数 24

ひとこと要約

EVC は、実時間で動作する単一のスケーラブルなニューラル画像圧縮モデルを実現し、解像度を跨いで最大30 FPS、マスク減衰トレーニングにより大規模な教師モデルを小型で効率的な学生モデルへ転換、変動 RD トレードオフに対応可能なスケーラブルエンコーダを提供します。

ABSTRACT

Neural image compression has surpassed state-of-the-art traditional codecs (H.266/VVC) for rate-distortion (RD) performance, but suffers from large complexity and separate models for different rate-distortion trade-offs. In this paper, we propose an Efficient single-model Variable-bit-rate Codec (EVC), which is able to run at 30 FPS with 768x512 input images and still outperforms VVC for the RD performance. By further reducing both encoder and decoder complexities, our small model even achieves 30 FPS with 1920x1080 input images. To bridge the performance gap between our different capacities models, we meticulously design the mask decay, which transforms the large model's parameters into the small model automatically. And a novel sparsity regularization loss is proposed to mitigate shortcomings of $L_p$ regularization. Our algorithm significantly narrows the performance gap by 50% and 30% for our medium and small models, respectively. At last, we advocate the scalable encoder for neural image compression. The encoding complexity is dynamic to meet different latency requirements. We propose decaying the large encoder multiple times to reduce the residual representation progressively. Both mask decay and residual representation learning greatly improve the RD performance of our scalable encoder. Our code is at https://github.com/microsoft/DCVC.

研究の動機と目的

実時間のニューラル画像圧縮を低遅延と単一モデルのレート制御を跨る RD トレードオフで実現する動機付け。
高速推論のためのGPUに優しいブロックを備えた効率的なエンコーダ/デコーダフレームワークの開発。
調整可能な量子化ステップを介して1つのモデル内で可変ビットレートを扱えるようにする。
大規模な教師モデルからより小さな学生モデルへの知識移転を実現するマスク減衰の導入。

提案手法

GPU効率のためにDepth-Convブロックと空間事前情報を用いたEfficient Variable-bit-rate Codec (EVC)を提案。
単一モデル内で複数のRDトレードオフを達成するために、グローバルおよびチャネル単位の調整可能な量子化ステップを組み込む。
事前学習済みの教師を小型の学生へ変換するマスク層を挿入し、マスク減衰を推進する新しいスパーシティ損失を最適化する。
ニューラル画像圧縮の剪定におけるL1/L2の限界を克服するため、勾配設計を持つスパーシティ正則化損失を導入。
大きなエンコーダから小さなエンコーダへ段階的に埋めるための残差表現学習（RRL）を用いたスケーラブルエンコーダアプローチを提示。
2段階プロセスで訓練: まずマスク減衰を介して教師を学生に変換し、次に学生をファインチューニングする。

実験結果

リサーチクエスチョン

RQ1単一のニューラル画像圧縮モデルが複数のレート歪みトレードオフを跨いでリアルタイムのRD性能を達成できるか？
RQ2マスク減衰はニューラル画像圧縮において大規模な教師モデルから小型で高速な学生モデルへの効果的な転送を可能にするか？
RQ3残差表現を伴うスケーラブルエンコーダは、単一デコーダを維持しつつ大規模エンコーダと小さなエンコーダの性能ギャップを縮められるか？
RQ4訓練中の剪定を改善するスパーシティ正則化は、標準のL1/L2損失と比較してニューラル画像圧縮においてどれか？

主な発見

大規模モデルは VTM を上回り、SOTA ニューラルコーデックに匹敵する；このアプローチは異なる RD トレードオフに対して1つのモデルを有効にする。
大規模モデルは 768×512 入力で 30 FPS、小型モデルは 1920×1080 入力で 30 FPS を達成。
マスク減衰と新しいスパーシティ損失は、ベースラインと比較してMediumおよびSmallモデルをそれぞれ約50%、30%改善。
残差表現学習を用いたスケーラブル-EVCは SlimCAE を上回り、他のSOTAモデルと同程度で、エンコーダのスケーラビリティを提供。
エンコーダはデコーダより冗長である。エンコーダを削除/圧縮してもデコーダを削除するよりRD性能の損失が小さい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。