[논문 리뷰] Reversible Column Networks
RevCol은 손실 없는 점진적으로 분리된 특징을 다층적으로 전달하는 다중 열, 가역 CNN 설계를 도입하여 ImageNet, COCO, ADE20K에서 강력한 성과를 달성하고 트랜스포머에 adaptable합니다.
We propose a new neural network design paradigm Reversible Column Network (RevCol). The main body of RevCol is composed of multiple copies of subnetworks, named columns respectively, between which multi-level reversible connections are employed. Such architectural scheme attributes RevCol very different behavior from conventional networks: during forward propagation, features in RevCol are learned to be gradually disentangled when passing through each column, whose total information is maintained rather than compressed or discarded as other network does. Our experiments suggest that CNN-style RevCol models can achieve very competitive performances on multiple computer vision tasks such as image classification, object detection and semantic segmentation, especially with large parameter budget and large dataset. For example, after ImageNet-22K pre-training, RevCol-XL obtains 88.2% ImageNet-1K accuracy. Given more pre-training data, our largest model RevCol-H reaches 90.0% on ImageNet-1K, 63.8% APbox on COCO detection minival set, 61.0% mIoU on ADE20k segmentation. To our knowledge, it is the best COCO detection and ADE20k segmentation result among pure (static) CNN models. Moreover, as a general macro architecture fashion, RevCol can also be introduced into transformers or other neural networks, which is demonstrated to improve the performances in both computer vision and NLP tasks. We release code and models at https://github.com/megvii-research/RevCol
연구 동기 및 목표
- 다중 열 가역 아키텍처를 통해 정보 손실 없이 분리된 표현 학습을 자극한다.
- RevCol(가역 열 네트워크)와 열 간의 특징 융합 및 전파를 위한 다층 가역 유닛을 개발한다.
- 대규모 사전 학습을 포함하여 ImageNet 분류, COCO 객체 탐지, ADE20K 의미 분할에서 강력한 성능을 시연한다.
- RevCol의 일반성을 보여주기 위해 트랜스포머와의 통합을 가능하게 하고 NLP 작업에도 적용한다.
제안 방법
- 가역 연결을 통해 인접 열 간에 다중 수준 특징을 전달하는 다수의 동일한 서브네트워크(열)로 구성된 거시적 아키텍처를 제안한다.
- x_t가 x_{t-1}과 x_{t-m+1}에서 파생되는 학습 가능한 감마 스케일링으로 계산되는 간소화된 다층 가역 유닛을 사용한다: x_t = F_t(x_{t-1}, x_{t-m+1}) + gamma x_{t-m} 그리고 역방향은 x_{t-m} = gamma^{-1}(x_t - F_t(...)).
- 패치를 임베딩하고 열당 네 수준의 특징을 추출하며, 선택된 열에서 보조 헤드(디코더 및 선형 분류기)를 통한 중간 감독으로 정보를 보존한다.
- 현재 열의 특징과 이전 열의 특징을 융합하는 퓨전 모듈을 포함하도록 ConvNeXt 블록을 수정하고, 커널 크기, 채널 수를 조정하며, 안정성을 위한 학습 가능한 가역 채널별 스케일링(gamma)과 클리핑을 구현한다.
- 중간 손실 L = sum_i (alpha_i L_BCE + beta_i L_CE)를 선택된 열에서 산출하여 정보 보존 및 수렴 개선을 달성한다.
- 이미지넷-1K/22K에서의 분류, COCO에서의 탐지/세그멘테이션, ADE20K에서의 세그멘테이션에 대한 평가를 통해 확장성과 트랜스포머 기반 아키텍처와의 통합 가능성을 시연한다.
실험 결과
연구 질문
- RQ1RevCol 아키텍처가 CNN과 ViT의 비슷한 복잡성 대비 이미지 분류, 객체 탐지, 의미 분할에서 어떻게 성능을 발휘하는가?
- RQ2고정된 계산 예산에서 가역 열의 수를 늘리면 성능에 어떤 영향을 미치는가?
- RQ3중간 감독이 학습 수렴 및 다운스트림 작업 성능에 미치는 영향은 무엇인가?
- RQ4RevCol이 더 큰 데이터 및 모델 크기에 얼마나 확장될 수 있으며 트랜스포머 기반 백본과의 통합이 가능한가?
주요 결과
- RevCol-S는 60M 파라미터와 9.0 GFLOPs로 ImageNet-1K에서 Top-1 정확도 83.5%를 달성, 여러 CNN을 능가하거나 유사한 CNN/ViT 모델과 비견된다.
- ImageNet-22K 사전 학습을 통해 RevCol-XL은 ImageNet-1K에서 Top-1 정확도 88.2%를 달성; 추가 데이터 사전 학습은 RevCol-XL↑에서 89.4%를 달성한다.
- 가장 큰 RevCol-H는 대규모 사전 학습 이후 ImageNet-1K에서 90.0% Top-1에 도달하고 COCO minival에서 63.8 AP 박스(Object365+DINO) 및 ADE20K에서 61.0 mIoU(Mask2Former) 성능을 달성한다.
- 유사한 계산 자원에서 COCO 및 ADE20K에 대해 다양한 백본에서 RevCol 모델이 동등한 대안보다 우수한 성능을 보이며, RevCol-H는 대규모 사전 학습으로 강한 이득을 나타낸다.
- 중간 감독은 일관되게 성능을 향상시켜 ImageNet-1K에서 0.5–0.9%의 추가 Top-1 정확도를 제공하고 다운스트림 작업 성능을 높인다.
- RevCol은 가역적 전파로 인해 메모리 절감 효과가 있으며 열 수 차원은 단일 열 네트워크의 확장/깊이 증가와 유사하게 용량을 증가시키는 확장 가능한 방법을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.