[논문 리뷰] Pre-Trained Image Processing Transformer
IPT는 대형 합성 이미지 처리 코호그램(ImageNet 유래)으로 사전에 학습된 트랜스포머 기반 모델로, 초해상도, 노이즈 제거, deraining 등 여러 저수준 비전 작업을 다루도록 설계되어 미세 조정 후 강력한 성능을 달성합니다.
As the computing power of modern hardware is increasing strongly, pre-trained deep learning models (e.g., BERT, GPT-3) learned on large-scale datasets have shown their effectiveness over conventional methods. The big progress is mainly contributed to the representation ability of transformer and its variant architectures. In this paper, we study the low-level computer vision task (e.g., denoising, super-resolution and deraining) and develop a new pre-trained model, namely, image processing transformer (IPT). To maximally excavate the capability of transformer, we present to utilize the well-known ImageNet benchmark for generating a large amount of corrupted image pairs. The IPT model is trained on these images with multi-heads and multi-tails. In addition, the contrastive learning is introduced for well adapting to different image processing tasks. The pre-trained model can therefore efficiently employed on desired task after fine-tuning. With only one pre-trained model, IPT outperforms the current state-of-the-art methods on various low-level benchmarks. Code is available at https://github.com/huawei-noah/Pretrained-IPT and https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/IPT
연구 동기 및 목표
- 저데이터가 희박하고 작업 유형이 다양한 저수준 비전 작업에서의 교차 작업 사전 학습 필요성에 대한 동기 부여.
- 이미지 처리 작업에 대해 작업별 헤드/테일과 공유 바디를 갖춘 보편적 사전 학습 트랜스포머(IPT) 제안.
- 다양한 degradation 모델로 생성된 ImageNet 유래의 대규모 합성 데이터로 학습.
- 패치 수준 표현력과 미지의 작업에 대한 일반화를 강화하기 위한 대조 학습을 도입.
- SR, denoising, deraining에 대해 사전 학습된 IPT 하나가 작업별 모델을 능가할 수 있음을 보임.
제안 방법
- 각 작업에 대한 멀티태스크 헤드, 공유 인코더-디코더 트랜스포머 바디, 재구성을 위한 멀티-테일 출력을 포함하는 네 가지 구성요소의 IPT를 도입.
- 입력 특징을 위치 인코딩이 포함된 패치(비주얼 워드)로 변환하고, 트랜스포머 인코더 및 임베딩이 있는 태스크 인식 디코더를 통해 처리.
- × large-scale 합성 ImageNet 유래 데이터셋에 다중 degradation 모델(bicubic SR, Gaussian noise, rain 등)로 학습.
- 재구성에 대한 감독 손실과 같은(contra) 손실을 이용한 패치 간의 대조 손실을 사용하여 보편적 특성을 학습(L_IPT = λ L_contrastive + L_supervised).
- 사전 학습된 IPT를 특정 작업(예: ×2/×3/×4 SR, denoising, deraining)으로 미세 조정하되 필요 시 사용하지 않는 헤드/테일을 동결.
실험 결과
연구 질문
- RQ1단일 사전 학습 트랜스포머 모델이 미세 조정 후 다중 저수준 이미지 처리 작업에서 일반화할 수 있는가?
- RQ2저해상도 ImageNet 데이터에 대한 대규모 사전 학습이 SR, denoising, deraining 성능을 작업별 모델보다 향상시키는가?
- RQ3대조 학습이 IPT의 품질과 작업 간 일반화에 미치는 영향은 무엇인가?
- RQ4ImageNet에서 사전 학습하고 미세 조정했을 때 IPT가 최첨단 CNN 기반 방법과 어떻게 비교되는가?
- RQ5다중 작업 사전 학습이 단일 작업 사전 학습에 비해 새로운 작업으로의 전이성에 미치는 영향은 무엇인가?
주요 결과
| Method | Scale | Set5 | Set14 | B100 | Urban100 |
|---|---|---|---|---|---|
| IPT (ours) | ×2 | 38.37 | 34.43 | 32.48 | 33.76 |
| IPT (ours) | ×3 | 34.81 | 30.85 | 29.38 | 29.49 |
| IPT (ours) | ×4 | 32.64 | 29.01 | 27.82 | 27.26 |
- IPT는 미세 조정 후 여러 저수준 벤치마크에서 다수의 작업별 방법을 능가한다.
- SR에서 IPT는 ×2에 대해 Set5 38.37, Set14 34.43, B100 32.48, Urban100 33.76; ×3는 34.81, 30.85, 29.38, 29.49; ×4는 32.64, 29.01, 27.82, 27.26의 PSNR 값을 달성한다.
- 컬러 이미지 노이즈 제거(Gaussian noise)에서 IPT는 BSD68, σ=30에서 30.75, Urban100, σ=50에서 28.39를 달성하며 30.75와 28.39는 보고된 최상위 성능 중 하나이다.
- deraining에서 IPT는 Rain100L에서 41.62 dB PSNR를 달성하여 이전 방법들을 추월한다.
- 대조 학습(λ > 0)은 감독 손실과 결합될 때 SR에서 최대 약 0.1 dB의 PSNR 향상을 가져온다.
- 다중 작업 사전 학습은 단일 작업 사전 학습에 비해 unseen 작업에 대한 일반화를 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.