QUICK REVIEW

[論文レビュー] COIN: COmpression with Implicit Neural representations

Emilien Dupont, Adam Goliński|arXiv (Cornell University)|Mar 3, 2021

Advanced Data Compression Techniques参考文献 32被引用数 25

ひとこと要約

COIN は画像を、画像に小さな MLP を過適合させ、その量子化された MLP 重みをコードとして保存することによって圧縮する- デコードは全てのピクセル位置で MLP を評価する。低ビットレートでエントロピー符号化なしに JPEG を上回る。

ABSTRACT

We propose a new simple approach for image compression: instead of storing the RGB values for each pixel of an image, we store the weights of a neural network overfitted to the image. Specifically, to encode an image, we fit it with an MLP which maps pixel locations to RGB values. We then quantize and store the weights of this MLP as a code for the image. To decode the image, we simply evaluate the MLP at every pixel location. We found that this simple approach outperforms JPEG at low bit-rates, even without entropy coding or learning a distribution over weights. While our framework is not yet competitive with state of the art compression methods, we show that it has various attractive properties which could make it a viable alternative to other neural data compression approaches.

研究の動機と目的

画像圧縮をモデル圧縮として扱う、単純なニューラルデータ圧縮アプローチを動機づけ、実証する。
小さな MLP に対して画像を過適合させ、その量子化された重みを保存することが、低ビットレートで JPEG を上回ることを示す。
圧縮のための暗黙的ニューラル表現のトレードオフと実用的性質を探る。
このアプローチが最先端手法と競争力があるかを評価し、改善の将来の方向性を特定する。

提案手法

画像を f_theta: (x,y) -> RGB の関数として表現し、SIREN の活性化を用いた MLP で高周波ディテールを捉える。
f_theta を画像に対して過適合させ、f_theta(x,y) と I[x,y] との MSE を最小化する。
MLP の重み theta を量子化して圧縮コードとして保存し、データ圧縮をモデル圧縮へと変換する。
すべてのピクセル位置で f_theta を評価して画像を再構成する。
オプションとしてアーキテクチャ探索と 16-bit 重み量子化を検討し、レートと歪みのバランスを取る。
注: エンコードは画像ごとに計算集約的だが、デコードは簡単で並列化可能。

実験結果

リサーチクエスチョン

RQ1各画像に対して学習された暗黙的ニューラル表現は、従来のコーダックと比べて低ビットレートで競争力のあるレート歪み性能を提供できるか。
RQ2アーキテクチャの選択と重みの量子化が COIN のレート歪みのトレードオフにどのように影響するか。
RQ3従来のオートエンコーダベースのニューラル圧縮と比較して、画像ごとに過適合させたネットワークを用いたエンコードの実用的な利点と制限は何か。
RQ4このアプローチを learned weight distributions や meta-learning で拡張して最先端手法との差を縮められるか。

主な発見

低ビットレートで、COIN はエントロピー符号化なしでも JPEG を上回る。
32-bit から 16-bit への重み量子化は、8-bit より劣化を抑えつつ性能を維持。
この方法はデコーダ側のメモリを非常に小さく達成し、autoencoder ベースラインと比較して低い。
エンコードは画像ごとの最適化のため遅いが、デコードは速く高度に並列可能。
異なるアーキテクチャは、与えられたビットレート予算で異なる最適性を示すため、アーキテクチャ探索や剪定の必要性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。