Skip to main content
QUICK REVIEW

[論文レビュー] Towards Image Understanding from Deep Compression without Decoding

Robert Torfason, Fabian Mentzer|arXiv (Cornell University)|Mar 16, 2018
Advanced Image Processing Techniques参考文献 23被引用数 101
ひとこと要約

この論文は、画像分類とセマンティックセグメンテーションを、RGB デコードを回避して学習済み深層画像圧縮からの圧縮表現上で直接効果的に実行できることを示し、計算量を削減し、共同訓練により圧縮品質と推論性能の両方がさらに改善される。

ABSTRACT

Motivated by recent work on deep neural network (DNN)-based image compression methods showing potential improvements in image quality, savings in storage, and bandwidth reduction, we propose to perform image understanding tasks such as classification and segmentation directly on the compressed representations produced by these compression methods. Since the encoders and decoders in DNN-based compression methods are neural networks with feature-maps as internal representations of the images, we directly integrate these with architectures for image understanding. This bypasses decoding of the compressed representation into RGB space and reduces computational cost. Our study shows that accuracies comparable to networks that operate on compressed RGB images can be achieved while reducing the computational complexity up to $2\times$. Furthermore, we show that synergies are obtained by jointly training compression networks with classification networks on the compressed representations, improving image quality, classification accuracy, and segmentation performance. We find that inference from compressed representations is particularly advantageous compared to inference from compressed RGB images for aggressive compression rates.

研究の動機と目的

  • 学習済み画像圧縮からの圧縮表現が、RGB へのデコードを行わずに画像理解タスクをサポートできるかを理解する。
  • 複数のビットレート点で、圧縮表現からの分類とセグメンテーションの性能を、デコード済みRGB入力と比較して定量化する。
  • 圧縮と推論ネットワークの共同訓練が、再構成品質とタスク精度の両方に相乗効果を生むかを検討する。

提案手法

  • 学習型畳み込みオートエンコーダを用いた画像圧縮(Theis et al., 2017)で、サイズ w/8 × h/8 × C の圧縮特徴マップを生成する。
  • 先頭の RGB 特有ブロックを削除して 28×28 の特徴マップに合わせることで、圧縮表現上で動作する ResNet 変種(cResNet)を適用する。
  • ImageNet (ILSVRC2012) で 3 点の運用点:0.0983、0.330、0.635 bpp を用いて、圧縮表現入力と再構成RGB入力を比較して分類を評価する。
  • PASCAL VOC 2012 で、Dilated Convolution および ASPP を用いた DeepLab 風アーキテクチャでセマンティックセグメンテーションを評価し、圧縮表現からの入力とデコード済み RGB を比較する。
  • レート–歪みのバランスと分類の交差エントロピー(式 2)を組み合わせた損失で、圧縮と推論ネットワークを共同訓練する。
  • 運用点とアーキテクチャごとに、計算コスト(FLOPs)と性能向上を評価する。

実験結果

リサーチクエスチョン

  • RQ1推論(分類/セグメンテーション)は、RGB へのデコードを行わず、圧縮表現から直接実行できるか?
  • RQ2様々なビットレート点で、圧縮表現からの性能はデコードと比較して、精度と計算コストの点でどうか。
  • RQ3圧縮と推論ネットワークの共同訓練は、圧縮品質(SSIM/MS-SSIM)とタスク精度の双方に相乗的な改善をもたらすか?

主な発見

bppネットワークアーキテクチャTop-5 精度 [%]Top-1 精度 [%]mIoU [%]
0.635ResNet-5089.9671.0665.75
0.635ResNet-5088.3468.2662.97
0.635cResNet-5187.8567.6862.86
0.635cResNet-3987.4767.1761.85
0.330ResNet-5086.2565.1860.75
0.330cResNet-5185.8764.7861.12
0.330cResNet-3985.4664.1460.78
0.0983ResNet-5078.5255.3052.97
0.0983ResNet-7179.2856.2354.55
0.0983cResNet-5178.2055.1854.62
0.0983cResNet-7279.0255.8255.78
  • 圧縮表現からの分類は、同等の FLOPs でデコードベースの分類器とほぼ同等の性能を達成し、デコード + 推論の計算量を約1.5~2倍削減。
  • ImageNet 0.635 bpp で、cResNet-51 を用いた圧縮表現の Top-5 精度は 87.85%、ポイントにより RGB ベースの ResNet-50/ResNet-71 のベースラインには 0.5~0.3 ポイント程度しか及ばない。
  • 中程度から高圧縮で、圧縮表現からのセグメンテーションはデコードベース法と同等かそれを上回る。0.0983 bpp で、平均 IoU はデコード済み RGB 入力より最大 1.65 ポイント改善。
  • 圧縮と分類(およびセグメンテーション)の共同訓練は、知覚品質(SSIM/MS-SSIM)に小さなが顕著な改善をもたらし、固定ポイントのベースラインを超える分類/セグメンテーション精度を向上させる(例えば、0.0983 bpp で分類 +2%、セグメンテーション +1.7%)。
  • 圧縮+推論ネットワークは、若干のアーキテクチャ・訓練変更で済み、デコードが不要な場合には実行時/メモリの利点を大きく提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。