QUICK REVIEW

[논문 리뷰] Involution: Inverting the Inherence of Convolution for Visual Recognition

Duo Li, Jie Hu|arXiv (Cornell University)|2021. 03. 10.

Advanced Neural Network Applications참고 문헌 65인용 수 26

한 줄 요약

본 논문은 컨벌루션의 반대 연산인 involution을 도입하여 단일 픽셀에 조건화된 공간적으로 적응적이고 채널 공유 커널을 생성하고 이를 이용해 RedNet을 구축하며 ImageNet, COCO, Cityscapes에서 계산량을 줄이면서도 우수한 정확도를 달성한다. 또한 involution 프레임워크 내에서 자기 주의(self-attention)를 통합하고 경쟁력 있는 정확도-비용 트레이드오프를 보여준다.

ABSTRACT

Convolution has been the core ingredient of modern neural networks, triggering the surge of deep learning in vision. In this work, we rethink the inherent principles of standard convolution for vision tasks, specifically spatial-agnostic and channel-specific. Instead, we present a novel atomic operation for deep neural networks by inverting the aforementioned design principles of convolution, coined as involution. We additionally demystify the recent popular self-attention operator and subsume it into our involution family as an over-complicated instantiation. The proposed involution operator could be leveraged as fundamental bricks to build the new generation of neural networks for visual recognition, powering different deep learning models on several prevalent benchmarks, including ImageNet classification, COCO detection and segmentation, together with Cityscapes segmentation. Our involution-based models improve the performance of convolutional baselines using ResNet-50 by up to 1.6% top-1 accuracy, 2.5% and 2.4% bounding box AP, and 4.7% mean IoU absolutely while compressing the computational cost to 66%, 65%, 72%, and 57% on the above benchmarks, respectively. Code and pre-trained models for all the tasks are available at https://github.com/d-li14/involution.

연구 동기 및 목표

시각 작업에서 공간 무관성과 채널 중복 문제를 해결하기 위해 표준 컨볼루션을 재고한다.
채널 간 커널 공유와 공간 위치에 적응하는 경량의 픽셀 조건부 involution 연산자를 제안한다.
involution이 self-attention을 일반화하며 분류, 검출, 분할을 위한 효율적인 백본(RedNet)을 구성하는 드롭인 프리미티브가 될 수 있음을 보인다.
ImageNet, COCO(검출/분할), Cityscapes(분할)에서 최신의 정확도-효율성 트레이드오프를 입증한다.

제안 방법

kernel H의 크기가 KxK인 공간적으로 구체적이고 채널에 구애받지 않는 연산으로 involution을 정의하며, 입력 위치 (i,j)마다 생성된다.
단일 픽셀 X_{i,j}에 조건화된 H를 생성하기 위해 bottleneck phi를 이용: H_{i,j} = phi(X_{i,j}) = W1 sigma(W0 X_{i,j}).
커널을 채널 간에 공유하고 Y_{i,j,k} = sum_{(u,v) in Delta_K} H_{i,j,u+K/2,v+K/2, floor(kG/C)} X_{i+u,j+v,k} 를 계산한다.
커널 생성을 ResNet 계열 백본(RedNet)에 삽입하고 stem/bottleneck에서 3x3 컨볼루션을 involution으로 대체하되 융합용 1x1 프로젝션은 유지한다.
ImageNet, COCO, Cityscapes에서 컨볼루션 기반 및 self-attention 베이스라인과 비교하여 정확도와 효율성을 평가한다.
self-attention과의 관계를 논의하며, involution이 명시적 query-key-value 구성을 필요로 하지 않으면서도 경쟁력 있는 결과를 달성할 수 있는 일반화되고 더 단순한 구현임을 보여준다.

실험 결과

연구 질문

RQ1공간적으로 적응적이고 채널에 독립적인 커널(involution)을 가진 연산자가 표준 컨볼루션보다 성능이 우수하고 더 효율적일 수 있는가?
RQ2involution이 시각 아키텍처에서 self-attention과 어떤 관계가 있으며 이를 잠재적으로 대체할 수 있는가?
RQ3involution에 기반한 RedNet 백본이 계산 비용을 낮추면서 ImageNet 분류 및 다운스트림 작업(검출/분할)을 향상시키는가?
RQ4ImageNet, COCO, Cityscapes와 같은 벤치마크에서 involution의 실증적 정확도-효율성 트레이드오프는 어떠한가?

주요 결과

involution은 채널 간 공유를 통해 커널 중복성을 줄이면서 더 넓은 공간 컨텍스트 모델링과 적응적 공간 가중화를 가능하게 한다.
RedNet with involution은 계수 파라미터 수와 FLOPs가 더 적으면서도 컨벌루션 기반 ResNet 변종을 일관되게 능가한다.
COCO에서 involution이 적용된 RedNet-50은 컨볼루션 베이스라인 대비 바운딩 박스 AP를 향상시키고 necks와 heads에 적용하면 계산도 더 줄일 수 있다.
Cityscapes에서 involution이 적용된 RedNet 백본은 평균 IoU가 높고 대형 객체에서 성능이 향상되며 neck와 head에 적용 시 파라미터 및 FLOPs 절감이 크게 나타난다.
다양한 작업에서 involution 기반 아키텍처는 CNN과 self-attention 기반 모델에 비해 우수한 정확도-효율성 범위를 달성하며 비슷하거나 더 나은 정확도에서 종종 계산량을 20-40% 감소시키는 경우가 많다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.