[논문 리뷰] InceptionNeXt: When Inception Meets ConvNeXt
InceptionNeXt는 large-kernel 깊이 방향 합성을 네 개의 병렬 분기로 분해합니다(항상 항등 분기도 포함) 속도를 높이면서 정확도를 보존하거나 향상시키고, ConvNeXt와 비교하여 더 빠른 학습/추론과 강력한 ImageNet 및 ADE20K 성능을 제공합니다.
Inspired by the long-range modeling ability of ViTs, large-kernel convolutions are widely studied and adopted recently to enlarge the receptive field and improve model performance, like the remarkable work ConvNeXt which employs 7x7 depthwise convolution. Although such depthwise operator only consumes a few FLOPs, it largely harms the model efficiency on powerful computing devices due to the high memory access costs. For example, ConvNeXt-T has similar FLOPs with ResNet-50 but only achieves ~60% throughputs when trained on A100 GPUs with full precision. Although reducing the kernel size of ConvNeXt can improve speed, it results in significant performance degradation, which poses a challenging problem: How to speed up large-kernel-based CNN models while preserving their performance. To tackle this issue, inspired by Inceptions, we propose to decompose large-kernel depthwise convolution into four parallel branches along channel dimension, i.e., small square kernel, two orthogonal band kernels, and an identity mapping. With this new Inception depthwise convolution, we build a series of networks, namely IncepitonNeXt, which not only enjoy high throughputs but also maintain competitive performance. For instance, InceptionNeXt-T achieves 1.6x higher training throughputs than ConvNeX-T, as well as attains 0.2% top-1 accuracy improvement on ImageNet-1K. We anticipate InceptionNeXt can serve as an economical baseline for future architecture design to reduce carbon footprint. Code is available at https://github.com/sail-sg/inceptionnext.
연구 동기 및 목표
- 비전 모델에서 높은 정확도를 유지하는 더 빠른 large-kernel CNN의 필요성을 자극한다.
- 메모리 액세스 비용을 줄이는 Inception에서 영감을 받은 효율적인 depthwise 합성 연산자를 도입한다.
- CNN 설계를 위한 경제적인 베이스라인으로 InceptionNeXt 계열 모델을 개발한다.
제안 방법
- 채널을 분할하고 네 개의 병렬 분기로 처리하는 Inception 깊이 방향 합성을 도입한다: 작은 3x3 정사각형, 수평 밴드 1xk, 수직 밴드 kx1, 그리고 항등.
- 대형 커널 depthwise 합성을 네 개의 분기로 형식적으로 분해하고 출력을 연결하여 특징 맵을 형성한다.
- Inception depthwise 모듈을 MetaNeXt/ConvNeXt 유사 블록에 삽입하여 InceptionNeXt 백본을 만든다.
- 성능과 속도를 위해 채널 차원 확장과 MLP 비율을 조정한 네 단계 구조를 구성한다.
- 가지의 중요성, 밴드 커널 크기, 합성 분기 비율을 연구하기 위한 애블레이션을 제공한다.
실험 결과
연구 질문
- RQ1CNN에서 대형 커널 depthwise 합성을 정확도를 희생하지 않으면서 효율적으로 만들 수 있는가?
- RQ2depthwise 합성의 Inception 스타일 분해가 표준 ConvNeXt-유사 블록보다 더 나은 속도-정확도 트레이드를 제공하는가?
- RQ3ImageNet-1K 및 ADE20K에서 InceptionNeXt 백본이 최첨단 ViT/CNN 하이브리드와 경쟁력 있는가?
주요 결과
| 모델 | 파라미터 수 (M) | MACs (G) | 학습 처리량 (imgs/s) | 추론 처리량 (imgs/s) | Top-1 (%) | 비고 |
|---|---|---|---|---|---|---|
| InceptionNeXt-T (Ours) | 28 | 4.2 | 901 | 2900 | 82.3 | Baseline for ablative study; +0.2 over ConvNeXt-T per Table 4. |
| InceptionNeXt-S (Ours) | 49 | 8.4 | 521 | 1750 | 83.5 | Higher throughput and accuracy vs ConvNeXt-S. |
| InceptionNeXt-B (Ours) | 87 | 14.9 | 375 | 1244 | 84.0 | Best trade-off among tested sizes; +0.2 over ConvNeXt-B. |
- InceptionNeXt-T는 ConvNeXt-T보다 0.2% 더 높은 top-1 정확도를 달성하면서 A100 GPU에서 1.6배의 학습 처리량과 1.2배의 추론 처리량을 제공합니다.
- 크기에 관계없이 InceptionNeXt는 정확도에서 ConvNeXt를 개선하거나 일치시키고, 학습 속도 향상과 경쟁력 있거나 더 나은 처리량을 보입니다.
- ImageNet-1K에서 InceptionNeXt-S와 InceptionNeXt-B는 ConvNeXt 등방성 대응 모델보다 최대 약 ~0.4%의 이득과 상당한 처리량 이점을 제공한다(예: InceptionNeXt-B: 84.0% Top-1 vs 83.8% ConvNeXt-B).
- 애블레이션 결과 수평/수직 밴드 분기 중 하나 또는 작은 3x3 분기를 제거하면 정확도가 감소하고, 병렬 밴드 분기가 속도/정확도 균형을 제공합니다.
- ADE20K에서의 시맨틱 세그멘테이션에서 InceptionNeXt 백본은 모델 크기에 걸쳐 Swin 및 ConvNeXt를 능가하고 더 높은 mIoU를 달성합니다(예: InceptionNeXt-B: 46.4 mIoU with Semantic FPN).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.