Skip to main content
QUICK REVIEW

[논문 리뷰] X-volution: On the unification of convolution and self-attention

Xuanhong Chen, Hang Wang|arXiv (Cornell University)|2021. 06. 04.
Computability, Logic, AI Algorithms참고 문헌 34인용 수 23
한 줄 요약

이 논문은 전이된 특징 맵의 학습 가능한 컨볼루션 변환를 통해 전역 자기주의를 근사화함으로써 컨벌루션과 자기주의를 통합하는 새로운 신경망 모듈인 X-volution을 제안한다. 이 방법은 다중 브랜치 아키텍처를 통해 국소적이고 비국소적 특징 학습을 동시에 가능하게 하며, 추론 시 단일 표준 컨볼루션으로 재구성될 수 있어 ImageNet에서 +1.2%의 top-1 정확도 향상과 COCO 객체 검출에서 +1.7 AP 향상을 달성하며 최신 기술 수준의 성능을 확보한다.

ABSTRACT

Convolution and self-attention are acting as two fundamental building blocks in deep neural networks, where the former extracts local image features in a linear way while the latter non-locally encodes high-order contextual relationships. Though essentially complementary to each other, i.e., first-/high-order, stat-of-the-art architectures, i.e., CNNs or transformers lack a principled way to simultaneously apply both operations in a single computational module, due to their heterogeneous computing pattern and excessive burden of global dot-product for visual tasks. In this work, we theoretically derive a global self-attention approximation scheme, which approximates a self-attention via the convolution operation on transformed features. Based on the approximated scheme, we establish a multi-branch elementary module composed of both convolution and self-attention operation, capable of unifying both local and non-local feature interaction. Importantly, once trained, this multi-branch module could be conditionally converted into a single standard convolution operation via structural re-parameterization, rendering a pure convolution styled operator named X-volution, ready to be plugged into any modern networks as an atomic operation. Extensive experiments demonstrate that the proposed X-volution, achieves highly competitive visual understanding improvements (+1.2% top-1 accuracy on ImageNet classification, +1.7 box AP and +1.5 mask AP on COCO detection and segmentation).

연구 동기 및 목표

  • 그들의 이질적인 계산 패턴으로 인해 단일 신경망 모듈 내에서 컨벌루션과 자기주의를 원칙적으로 통합할 수 있는 방법의 부족을 해결하기 위해.
  • 비전 작업에서 효율적인 계산을 가능하게 하는 저복잡도의, 미분 가능한 전역 자기주의 근사치를 개발하기 위해.
  • 최적화 안정성이 컨벌루션을 유지하면서도 자기주의를 통해 장거리 의존성을 포착할 수 있는 다중 브랜치 모듈을 설계하기 위해.
  • 학습된 다중 브랜치 모듈를 추론을 위해 단일 효율적인 컨볼루션 레이어로 변환할 수 있도록 구조적 재구성 가능성을 제공하기 위해.

제안 방법

  • 전역 자기주의의 O(n) 근사치인 픽셀 이동 자기주의(PSSA)를 제안하며, 도트곱 자기주의를 8개 방향으로 이동된 특징 맵 간의 원소별 연산으로 대체한다.
  • 표준 3×3 및 확장된 5×5 컨볼루션 브랜치와 비국소적 특징 상호작용을 위한 PSSA 브랜치를 포함하는 다중 브랜치 X-volution 모듈을 구성한다.
  • 원본 및 이동된 특징 간의 학습 가능한 이동 연산과 원소별 곱셈을 적용하여 동적 자기주의 맵을 생성한다.
  • 학습 안정성 향상과 일반화 성능 향상을 위해 최종 출력 이전에 배치 정규화를 적용한다.
  • 학습 후 다중 브랜치 아키텍처를 단일 표준 컨볼루션으로 병합함으로써 추론 효율성을 확보하기 위해 구조적 재구성 기법을 활용한다.

실험 결과

연구 질문

  • RQ1변형된 특징에 대한 오직 컨볼루션 연산만을 사용하여 전역 자기주의를 효과적이고 효율적으로 근사할 수 있는가?
  • RQ2컨벌루션과 자기주의를 통합한 통합 모듈이 안정적으로 학습되어 단독 CNN 또는 Transformer보다 더 높은 성능을 달성할 수 있는가?
  • RQ3구조적 재구성 기반의 다중 브랜치 설계는 컨벌루션의 최적화 이점을 유지하면서도 자기주의의 표현 능력을 획득할 수 있는가?
  • RQ4결과로 도출된 X-volution 모듈는 아키텍처 변경 없이 기존 네트워크에 플러그인 방식으로 배치할 수 있는가?

주요 결과

  • X-volution은 ResNet-50 기준선 대비 ImageNet-1K 분류에서 +1.2%의 top-1 정확도 향상을 달성한다.
  • COCO 객체 검출에서 X-volution은 박스 AP를 +1.7 포인트, 마스크 AP를 +1.5 포인트 향상시켰다.
  • 더 긴 학습 스케줄(예: 3x 및 6x)에서 X-volution의 성능 향상은 증가하여 3x 설정에서 COCO에서 +2.0 AP 향상에 도달한다.
  • PSSA 근사치는 짧은 학습 스케줄에서는 표준 컨벌루션과 유사한 성능를 보이지만, 학습이 진행될수록 성능가 뛰어나지 않아 장거리 모델링 능력이 뛰어나다는 것을 시사한다.
  • 재구성된 X-volution 모듈는 높은 성능를 유지하면서도 표준 컨볼루션으로 배포 가능하여 효율적인 추론을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.