QUICK REVIEW

[論文レビュー] Pre-Trained Image Processing Transformer

Hanting Chen, Yunhe Wang|arXiv (Cornell University)|Dec 1, 2020

Advanced Image Processing Techniques参考文献 89被引用数 120

ひとこと要約

IPT は、大規模な合成画像処理コーパス（ImageNet由来）で事前訓練されたトランスフォーマーベースのモデルで、超解像、ノイズ除去、雨滴除去などの複数の低レベル視覚タスクを処理し、ファインチューニング後に高い性能を達成します。

ABSTRACT

As the computing power of modern hardware is increasing strongly, pre-trained deep learning models (e.g., BERT, GPT-3) learned on large-scale datasets have shown their effectiveness over conventional methods. The big progress is mainly contributed to the representation ability of transformer and its variant architectures. In this paper, we study the low-level computer vision task (e.g., denoising, super-resolution and deraining) and develop a new pre-trained model, namely, image processing transformer (IPT). To maximally excavate the capability of transformer, we present to utilize the well-known ImageNet benchmark for generating a large amount of corrupted image pairs. The IPT model is trained on these images with multi-heads and multi-tails. In addition, the contrastive learning is introduced for well adapting to different image processing tasks. The pre-trained model can therefore efficiently employed on desired task after fine-tuning. With only one pre-trained model, IPT outperforms the current state-of-the-art methods on various low-level benchmarks. Code is available at https://github.com/huawei-noah/Pretrained-IPT and https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/IPT

研究の動機と目的

低レベル視覚タスクにおけるクロスタスク事前学習の必要性を動機づける（データが乏しく、タスクの種類が異なる場合がある）。
タスク固有のヘッド/テイルと共有本体を備えた普遍的な事前訓練トランスフォーマー（IPT）を画像処理タスク用に提案する。
ImageNet画像の大規模な合成劣化を活用して多様な訓練データを作成する。
コントラスト学習を取り入れてパッチレベルの表現と未知のタスクへの一般化を強化する。
単一の事前訓練済み IPT が、SR、ノイズ除去、雨滴除去でファインチューニング後にタスク固有モデルを凌駕できることを示す。

提案手法

4要素の IPT を導入する: 各タスク用のマルチタスクヘッド、共有エンコーダ-デコーダトランスフォーマー本体、および再構成のためのマルチテール出力。
入力特徴をパッチ（視覚語）へ変換し、位置エンコーディングを付与; Transformer encoder と embeddings を用いたタスク対応デコーダで処理。
複数の劣化モデル（双三次 SR、ガウシアンノイズ、雨など）を用いた大規模な ImageNet由来データセットで IPT を事前訓練。
再構成の監督損失に加え、同一画像のパッチ間でのコントラスト損失を用いて普遍的特徴を学習する（L_IPT = λ L_contrastive + L_supervised）。
特定タスク（例: ×2/×3/×4 SR、ノイズ除去、雨滴除去）で未使用ヘッド/テイルを必要に応じて凍結しながら事前訓練済み IPT をファインチューニング。

実験結果

リサーチクエスチョン

RQ1単一の事前訓練済みトランスフォーマーモデルは、ファインチューニング後に複数の低レベル画像処理タスクで一般化できるか。
RQ2劣化した ImageNet データでの大規模事前訓練は、SR、ノイズ除去、雨滴除去の性能をタスク固有モデルより向上させるか。
RQ3コントラスト学習は、IPT の品質とタスク間の一般化にどのような影響を与えるか。
RQ4ImageNet で事前訓練しファインチューニングした場合、IPT は最先端の CNN ベース手法と比較してどうか。
RQ5マルチタスク訓練と単一タスク事前訓練は、新しいタスクへの転移にどのような影響を与えるか。

主な発見

Method	Scale	Set5	Set14	B100	Urban100
IPT (ours)	×2	38.37	34.43	32.48	33.76
IPT (ours)	×3	34.81	30.85	29.38	29.49
IPT (ours)	×4	32.64	29.01	27.82	27.26

IPT はファインチューニング後、いくつかの低レベルベンチマークで多くのタスク固有手法を上回る。
SR で、IPT は ×2 の場合 Set5 38.37, Set14 34.43, B100 32.48, Urban100 33.76; ×3 は 34.81, 30.85, 29.38, 29.49; ×4 は 32.64, 29.01, 27.82, 27.26 の PSNR を達成。
カラー画像 denoising（ガウシアンノイズ）で、IPT は BSD68, σ=30 で 30.75、Urban100, σ=50 で 28.39 を達成; 30.75 と 28.39 は報告された中で最高水準のうちにある。
雨滴除去では、IPT は Rain100L で 41.62 dB PSNR を達成し、従来手法を上回る。
コントラスト学習（λ > 0）は、監督損失と組み合わせると SR の PSNR を最大約 ~0.1 dB 向上させる。
マルチタスクの事前訓練は、単一タスクの事前訓練に比べて未知タスクへの一般化を高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。