QUICK REVIEW

[論文レビュー] Variable Rate Image Compression with Recurrent Neural Networks

George Toderici, Sean M. O’Malley|arXiv (Cornell University)|Nov 19, 2015

Advanced Data Compression Techniques参考文献 17被引用数 118

ひとこと要約

本論文は、畳み込みおよび逆畳み込みLSTM再帰ネットワークを用いた可変レート画像圧縮フレームワークを提案する。このモデルは、JPEG、WebP、JPEG2000よりも低いビットレートでも優れた知覚的品質を達成する。1つの学習済みネットワークでプログレッシブでレート適応可能な圧縮が可能であり、32×32のサムネイルにおいてSSIMと視覚的品質で標準的コードックを上回り、ストレージを10%以上削減する。

ABSTRACT

A large fraction of Internet traffic is now driven by requests from mobile devices with relatively small screens and often stringent bandwidth requirements. Due to these factors, it has become the norm for modern graphics-heavy websites to transmit low-resolution, low-bytecount image previews (thumbnails) as part of the initial page load process to improve apparent page responsiveness. Increasing thumbnail compression beyond the capabilities of existing codecs is therefore a current research focus, as any byte savings will significantly enhance the experience of mobile device users. Toward this end, we propose a general framework for variable-rate image compression and a novel architecture based on convolutional and deconvolutional LSTM recurrent networks. Our models address the main issues that have prevented autoencoder neural networks from competing with existing image compression algorithms: (1) our networks only need to be trained once (not per-image), regardless of input image dimensions and the desired compression rate; (2) our networks are progressive, meaning that the more bits are sent, the more accurate the image reconstruction; and (3) the proposed architecture is at least as efficient as a standard purpose-trained autoencoder for a given number of bits. On a large-scale benchmark of 32$ imes$32 thumbnails, our LSTM-based approaches provide better visual quality than (headerless) JPEG, JPEG2000 and WebP, with a storage size that is reduced by 10% or more.

研究の動機と目的

自動エンコーダーに基づくニューラルネットワークの画像圧縮における限界、特に固定レート符号化と画像スケールにわたる一般化の悪さを解決すること。
さまざまな画像寸法およびターゲットビットレートで可変レート圧縮を可能にする、1つのトレーニング可能なニューラルネットワークアーキテクチャの開発。
低ビットレートのサムネイル圧縮で一般的なブロックアーチファクトや色のぼやけを効果的に低減し、知覚的品質を向上させること。
より高いビットレートで次第に正確な画像再構成が得られるプログレッシブな再構成を可能にすること。
クロムアサブサンプリングのようなコードック固有の事前処理や手動で調整されたヒューリスティクスの必要性を排除すること。

提案手法

フレームワークは、畳み込みおよび逆畳み込みLSTM層を用いた再帰的オートエンコーダー構造を採用し、画像パッチ内の空間的および時間的依存関係をモデル化する。
エンコーダーはスタックされた畳み込みLSTMを用いて入力画像をボトルネック表現に圧縮し、デコーダーは逆畳み込みLSTMを用いて画像を再構成する。
ボトルネックに微分可能な量子化層を適用し、離散的なビットストリーム表現を生成することで、バックプロパゲーションを用いたエンドツーエンドの学習を可能にする。
ボトルネックに割り当てられるビット数を調整することで可変レート圧縮を実現し、再構成の段階的精錬を可能にする。
2100万枚の32×32サムネイルからなる大規模データセット上でエンドツーエンドに学習させることで、多様な画像コンテンツにわたる一般化を可能にする。
畳み込みバージョンでは動的ビット割り当て戦略を適用して高活動領域を優先するが、境界アーチファクトを引き起こす可能性がある。

実験結果

リサーチクエスチョン

RQ1再トレーニングなしで、さまざまな画像サイズおよびターゲットビットレートに対応できる1つのニューラルネットワークを学習可能か？
RQ2低ビットレートにおいて、LSTMベースのオートエンコーダーはJPEG や WebP といった標準的コードックと比較して、知覚的品質で優れているか？
RQ3再帰的アーキテクチャは、低解像度サムネイルにおける空間的冗長性を効果的にモデル化し、高周波数ディテールを保持できるか？
RQ4LSTMモデルではクロムアサブサンプリングが使用されていないが、これにより同レベルのビットレートでより高い品質が得られるか？
RQ5ビット割り当てを増やすことで画像忠実度が向上するプログレッシブな再構成がモデルで達成できるか？

主な発見

(畳み込みおよび逆畳み込み) LSTMモデルは、全テストビットレートでJPEG や WebP よりも高いSSIMスコアを達成し、同等または低いビットレートで知覚的品質が4%〜12%向上する。
0.625 bppで、(畳み込みおよび逆畳み込み) LSTMモデルは、より高いビットレートでのJPEG や WebP のSSIMを同等または上回り、優れたレート・ディストーション効率を示す。
特に低ビットレートにおいて、JPEG や WebP よりも目立つブロックアーチファクトや色のぼやけが低減され、過剰な平滑化も回避される。
32×32サムネイルにおいて、同じ視覚的品質でJPEG、WebP、JPEG2000と比較してストレージサイズを10%以上削減する。
クロムアサブサンプリングを用いないにもかかわらず、高い性能を維持する。一方、JPEGは4:4:4エンコーディングでは26%のビットレート増加を受ける。
フレームワークはプログレッシブな再構成を可能にする：ビット割り当てを増やすことでより良い画像再構成が得られ、1つのモデルで全ターゲットレートをカバーできる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。