[논문 리뷰] Corrupted Image Modeling for Self-Supervised Visual Pre-Training
CiM은 ViT 및 CNN 사전학습을 위해 비시암적 방식의 입력 이미지 손상을 활용하는 제너레이터 기반 방법으로 비전 트랜스포머와 CNN 프리트레이닝의 성능을 높이고, ImageNet 및 ADE20K에서 경쟁력 있는 결과를 달성한다. enhancer는 생성적(ResPix) 또는 판별적(RevDet)일 수 있다.
We introduce Corrupted Image Modeling (CIM) for self-supervised visual pre-training. CIM uses an auxiliary generator with a small trainable BEiT to corrupt the input image instead of using artificial [MASK] tokens, where some patches are randomly selected and replaced with plausible alternatives sampled from the BEiT output distribution. Given this corrupted image, an enhancer network learns to either recover all the original image pixels, or predict whether each visual token is replaced by a generator sample or not. The generator and the enhancer are simultaneously trained and synergistically updated. After pre-training, the enhancer can be used as a high-capacity visual encoder for downstream tasks. CIM is a general and flexible visual pre-training framework that is suitable for various network architectures. For the first time, CIM demonstrates that both ViT and CNN can learn rich visual representations using a unified, non-Siamese framework. Experimental results show that our approach achieves compelling results in vision benchmarks, such as ImageNet classification and ADE20K semantic segmentation.
연구 동기 및 목표
- 유연하고 비시암(Self-Supervised) 프리트레이닝 프레임워크를 통해 ViT와 CNN 아키텍처 모두에 작동하도록 동기를 부여한다.
- 입력 뷰를 풍부하게 하기 위해 BEiT 기반의 학습 가능한 제너레이터를 통한 손상된 이미지 생성을 제안한다.
- 픽셀 재구성(ResPix) 및 교체 탐지(RevDet)라는 두 가지 enhancer 목표를 탐구한다.
- CiM이 ImageNet 분류 및 ADE20K 분할에서의 전이 성능을 경쟁력 있게 달성할 수 있음을 시연한다.
제안 방법
- 사전 학습된 이미지 토크나이저(dVAE)가 고정된 상태인 소형 학습 가능 BEiT를 제너레이터로 사용하여 BEiT 출력 분포에서 샘플링함으로써 손상된 이미지를 생성한다.
- 손상된 이미지를 재구성 픽셀(ResPix) 또는 교체된 토큰을 탐지하는(RevDet) 엔하서 네트워크에 입력한다.
- 제너레이터와 엔하서를 공동으로 학습하되 제너레이터로의 그래디언트 흐름은 차단하여 안정적이고 비적대적 업데이트를 가능하게 한다.
- ResPix 성능을 향상시키기 위해 슬라이딩 윈도우 방식으로 픽셀 타깃을 정규화하는 것을 선택적으로 적용한다.
- ViT와 CNN 엔하서 모두를 단일 프레임워크에서 프리트레이닝하고 하류 태스크로 잘 이전될 수 있음을 입증한다.
실험 결과
연구 질문
- RQ1CiM이 비시암식 손상 이미지 패러다임을 사용하여 고용량의 ViT와 CNN 인코더를 프리트레이닝할 수 있는가?
- RQ2입력을 손상시키는 학습 가능한 제너레이터가 고정 마스킹 방식보다 표현 학습을 향상시키는가?
- RQ3생성적(ResPix) 및 판별적(RevDet) 엔하서 목표 모두 다운스트림 태스크에 대해 효과적일까?
- RQ4CiM으로 프리트레이닝된 ViT와 CNN 모델의 ImageNet 분류 및 ADE20K 분할에서의 성능은 기준선과 비교해 어떤가?
주요 결과
| 모델들 | 프리 트레이닝 에폭 | Top-1 |
|---|---|---|
| ViT-Small/16 (Scratch) | - | 79.9 |
| MoCo-v3 | 600 | 81.4 |
| DINO | 1600 | 81.5 |
| BEiT | 300 | 81.3 |
| CiM - ResPix | 300 | 81.5 |
| CiM - RevDet | 300 | 81.6 |
| ViT-Base/16 (Scratch) | - | 81.8 |
| ViT-Base/16 (Scratch, He et al. 2021) | - | 82.3 |
| DINO | 1600 | 82.8 |
| MoCo-v3 | 600 | 83.2 |
| BEiT | 300 | 82.9 |
| BEiT | 800 | 83.2 |
| MAE | 800 | 83.1 |
| CiM - RevDet | 300 | 83.3 |
| CiM - ResPix | 300 | 83.3 |
- CiM은 300 프리트레이닝 에폭에서 ViT-S/16 및 ViT-Base/16의 엔드-투-엔드 파인튜닝 탑-1 정확도에서 경쟁력을 보인다.
- CiM ViT-Base/16 with RevDet는 Table 1에서 83.3%의 탑-1 정확도에 도달하여 BEiT 및 MAE 기준선과 비슷하다.
- CiM-ResPix 및 CiM-RevDet은 ViT-Base/16에서 보고된 설정 하에 각각 83.3%의 탑-1을 달성하며, RevDet는 표 1에서 83.6%를 달성하는 것으로 보이나(ResPix의 83.3 및 RevDet의 83.3이 ViT-Base/16 아래에 표에 제시됨), 표의 정확한 표현은 83.3%로 나타난다.
- ResNet-50의 경우 CiM-RevDet가 300 프리트레이닝 에폭 후 78.8% 탑-1에 도달하여 특정 파인튜닝 규칙에서 여러 시암즈 방법 기준선을 능가한다.
- ADE20K 의미론적 분할에서 CiM-ResPix 및 CiM-RevDet은 ViT-Base/16 인코더로 각각 38.7 및 39.0 mIoU를 달성하고, 제시된 설정에서 ViT-Base/16 인코더로 43.5–43.6 mIoU를 달성한다.
- 비교 분석은 약 50% 비무작위 마스킹, 소형 BEiT의 4–6 레이어 구성, ResPix의 슬라이딩-윈도우 정규화, 제너레이터 토큰의 소프트맥스 샘플링이 이점들을 제공함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.