QUICK REVIEW

[論文レビュー] High-Efficiency Lossy Image Coding Through Adaptive Neighborhood Information Aggregation

Ming Lu, Chen, Fangdong|arXiv (Cornell University)|Apr 25, 2022

Generative Adversarial Networks and Image Synthesis被引用数 36

ひとこと要約

この補足資料は TinyLIC のアーキテクチャ、マルチステージコンテキストモデル、潜在的グルーピング戦略を詳述し、複数のデータセットと入力形式にわたる基準値に対する BD-rate の改善を報告します。

ABSTRACT

Questing for learned lossy image coding (LIC) with superior compression performance and computation throughput is challenging. The vital factor behind it is how to intelligently explore Adaptive Neighborhood Information Aggregation (ANIA) in transform and entropy coding modules. To this end, Integrated Convolution and Self-Attention (ICSA) unit is first proposed to form a content-adaptive transform to characterize and embed neighborhood information dynamically of any input. Then a Multistage Context Model (MCM) is devised to progressively use available neighbors following a pre-arranged spatial-channel order for accurate probability estimation in parallel. ICSA and MCM are stacked under a Variational AutoEncoder (VAE) architecture to derive rate-distortion optimized compact representation of input image via end-to-end learning. Our method reports state-of-the-art compression performance surpassing the VVC Intra and other prevalent LIC approaches across Kodak, CLIC, and Tecnick datasets; More importantly, our method offers $>$60$ imes$ decoding speedup using a comparable-size model when compared with the most popular LIC method. All materials are made publicly accessible at https://njuvision.github.io/TinyLIC for reproducible research.

研究の動機と目的

TinyLIC の adaptive neighborhood information aggregation (MCM) を用いた一般化を実証し、学習型画像圧縮を向上させる。
TinyLIC に使用される変換ネットワークのアーキテクチャと訓練の詳細を提供する。
Kodak、NIC、CLIC、Tecnick データセットでビットレート範囲のカバーと RD パフォーマンスを評価する。
さまざまな画像ソースとフォーマット（RGB、YUV420、Y）に対する互換性を示す。

提案手法

TinyLIC の Main Encoder/Decoder および Hyper Encoder/Decoder ネットワーク設定（Conv、RNAB、TConv）を説明する。
Multistage Context Model (MCM) と、それが横断チャネル情報をどう分析するか。
latent grouping 戦略を説明し、非一様/一様な空間-チャンネルグルーピングを比較する。
BD-rate および RD パフォーマンスを BPG、VVC、および従来の学習型圧縮手法とデータセットを横断して比較する。
圧縮のためのデータ配置を再配置することによって YUV420 および Y 入力をサポートすることを示す。

実験結果

リサーチクエスチョン

RQ1学習型画像圧縮における適応近傍情報集約は rate-distortion パフォーマンスをどのように改善するのか？
RQ2TinyLIC のマルチステージコンテキストモデルは、以前の手法と比べてパフォーマンスと計算コストのバランスをどのように取るのか？
RQ3TinyLIC はさまざまなデータセットと入力形式（RGB、YUV420、Y）をまたいで一般化し、ビットレート効率を維持できるのか？

主な発見

TinyLIC は Kodak、NIC、CLIC、Tecnick データセットで VVC および他の学習済み手法に対して競争力のある BD-rate、利得を達成する。
提案された MCM は空間・チャンネル次元を非一様グルーピングすることにより、パフォーマンス–計算複雑さのトレードオフを改善する。
NIC データセットにおいて VVC Intra と比較して TinyLIC は顕著な BD-rate の削減を示し、高/低ビットレート設定で平均はおおよそ中位の 20% 台。
定性的な視覚化は、壁のテクスチャやクローズアップで BPG および VVC よりもシャープでノイズが少ない再構成を示す。
TinyLIC は RGB、YUV420、モノクロ Y など複数の入力フォーマットをサポートし、圧縮のための適切なデータ配置を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。