[論文レビュー] Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network
ESPCNを導入し、サブピクセル畳み込み層を用いてLR空間でSRを行うCNNを提案。これにより単一のK2 GPUでリアルタイムの1080p動画SRを実現し、PSNRで従来のCNN手法を上回り、実行時間が大幅に高速化される。
Recently, several models based on deep neural networks have achieved great success in terms of both reconstruction accuracy and computational performance for single image super-resolution. In these methods, the low resolution (LR) input image is upscaled to the high resolution (HR) space using a single filter, commonly bicubic interpolation, before reconstruction. This means that the super-resolution (SR) operation is performed in HR space. We demonstrate that this is sub-optimal and adds computational complexity. In this paper, we present the first convolutional neural network (CNN) capable of real-time SR of 1080p videos on a single K2 GPU. To achieve this, we propose a novel CNN architecture where the feature maps are extracted in the LR space. In addition, we introduce an efficient sub-pixel convolution layer which learns an array of upscaling filters to upscale the final LR feature maps into the HR output. By doing so, we effectively replace the handcrafted bicubic filter in the SR pipeline with more complex upscaling filters specifically trained for each feature map, whilst also reducing the computational complexity of the overall SR operation. We evaluate the proposed approach using images and videos from publicly available datasets and show that it performs significantly better (+0.15dB on Images and +0.39dB on Videos) and is an order of magnitude faster than previous CNN-based methods.
研究の動機と目的
- ネットワーク内の早い段階でHRへアップスケーリングするよりも、計算コストを抑えてリアルタイムな単一画像および動画の超解像を動機づける。
- LR特徴マップからHRを再構成する効率的なサブピクセル畳み込み層を提案・検証する。
- ネットワーク末尾でLR空間の特徴抽出とLR-to-HRアップスケーリングを実証し、複雑さを低減する。
- 標準データセット上で従来のSISR手法と比較評価し、PSNRと速度の改善を示す。
提案手法
- LR画像をL-1層で処理して特徴を抽出するCNNを提案し、その後、HR出力を生成するサブピクセル畳み込み層(周期的シャッフル)を用いる。
- PS演算子を用いて、サイズH×W×C·r²の特徴マップをrH×rW×Cへ整形するサブピクセル畳み込み層を導入。
- ガウシアンブラーと stride r のダウンサンプリングで生成したHR-LR対の平均二乗誤差で学習。
- 最終層アップスケーリングが、各特徴マップあたりnL−1個の学習フィルターを用いる方が、HR空間で事前アップスケーリングするより効率的であることを示す。
- tanhとreluの活性化を比較し、本SR設定でtanhが優れた性能を発揮することを示す。)
実験結果
リサーチクエスチョン
- RQ1LR空間の特徴抽出と学習されたアップスケーリング(サブピクセル)層の組み合わせで、SR品質を損なうことなく効率を高められるか?
- RQ2特徴マップごとにアップスケーリングフィルターを学習することは、入力側で固定的なバイキュービック風アップスケーリングを上回るか?
- RQ3標準的な画像および動画データセット上で、ESPCNは既存のCNNベースSR手法に対してどの程度のPSNRと速度の利得を達成するか?
- RQ4提案されたアーキテクチャを用いて単一GPUでHD動画のリアルタイムSRは実現可能か?
主な発見
- ESPCNは標準的な画像ベンチマークのPSNRで従来のCNNベースSR手法を上回り(論文に示された平均増分)、HDデータセットの動画PSNRでも上回る。
- 本法は実行時間が著しく高速化され、例としてK2 GPUでSet14あたり1画像4.7 ms、スケール3で1080p動画はフレームあたり0.038 s(スケール4では0.029 s)を達成。
- 本手法は従来のCNN手法と比較して、画像で+0.15 dB、動画で+0.39 dBのPSNR向上をもたらす。
- 最終層のサブピクセル畳み込みにより、単一GPUでHD動画をリアルタイムSRできるようになり、SRCNN風パイプラインと比べて総計算量が約2.5×r²削減される。
- ImageNetデータでの訓練と、最終活性化にtanhを用いることは、reluと比較してSR性能をさらに向上させる。
- 本手法は従来のCNNベースSR手法より約1桁近く高速であることを示し、複数のデータセットで最先端または競合的なPSNRを達成している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。