QUICK REVIEW

[논문 리뷰] Diverse Branch Block: Building a Convolution as an Inception-like Unit

Xiaohan Ding, Xiangyu Zhang|arXiv (Cornell University)|2021. 03. 24.

Advanced Neural Network Applications참고 문헌 36인용 수 23

한 줄 요약

논문은 추론 시 비용 증가 없이 성능 향상을 달성하기 위해 훈련 시 다중 스케일, 다중 복잡도 브랜치(예: 1×1 컨볼루션, 3×3 컨볼루션, 평균 풀링)를 결합하는 Diverse Branch Block(DBB)을 제안한다. 이는 추론 시 전체 블록을 단일 등가 컨볼루션으로 변환함으로써 가능해지며, ImageNet에서 최대 1.9% 높은 상위-1 정확도를 달성한다.

ABSTRACT

We propose a universal building block of Convolutional Neural Network (ConvNet) to improve the performance without any inference-time costs. The block is named Diverse Branch Block (DBB), which enhances the representational capacity of a single convolution by combining diverse branches of different scales and complexities to enrich the feature space, including sequences of convolutions, multi-scale convolutions, and average pooling. After training, a DBB can be equivalently converted into a single conv layer for deployment. Unlike the advancements of novel ConvNet architectures, DBB complicates the training-time microstructure while maintaining the macro architecture, so that it can be used as a drop-in replacement for regular conv layers of any architecture. In this way, the model can be trained to reach a higher level of performance and then transformed into the original inference-time structure for inference. DBB improves ConvNets on image classification (up to 1.9% higher top-1 accuracy on ImageNet), object detection and semantic segmentation. The PyTorch code and models are released at https://github.com/DingXiaoH/DiverseBranchBlock.

연구 동기 및 목표

복잡한 훈련 구조를 도입함으로써 추론 비용 증가 없이 ConvNets의 성능-비용 간 상충 문제를 해결한다.
표준 컨볼루션 레이어가 다양한 수용장역과 계층적 특징을 포착하는 데 한계가 있음을 극복한다.
기존 아키텍처(예: ResNet)의 마크로 구조를 변경하지 않고도 원활하게 통합할 수 있는 플러그 앤 플레이형 빌딩 블록을 개발한다.
복잡한 훈련 시 마이크로 구조를 효율적인 추론 시 단일 컨볼루션으로 변환하는 구조 재매개변수화를 통해 성능 향상을 가능하게 한다.
다양한 연결 방식과 훈련 시 비선형성은 단순한 파라미터 수를 넘어서 표현 능력을 크게 향상시킨다.

제안 방법

1×1 컨볼루션, K×K 컨볼루션, 평균 풀링, 스킵 연결을 결합한 블록 내 다중 브랜치 아키텍처를 설계하여 특징 공간을 풍부하게 한다.
다중 브랜치 DBB를 훈련 후 단일 등가 컨볼루션 레이어로 변환하는 구조 재매개변수화를 도입하여 추론 효율성을 유지한다.
브랜치 합산 이전에 배치 정규화를 적용하여 훈련 시 비선형성을 도입함으로써 최적화 과정 중 모델 용량을 향상시킨다.
모든 DBB 구성에 대해 단일 컨볼루션 등가로 변환할 수 있도록 6개의 변환 규칙(논문에서 요약)을 적용한다.
모델을 전체 DBB 구조로 훈련하면서 추론 시에는 재매개변수화된 단일 컨볼루션 버전만 사용함으로써 런타임 비용 증가 없이 구현한다.
다양한 연결 방식과 BN 유도 비선형성의 기여도를 검증하기 위해 제거 실험 및 복제 또는 순수 선형 변형 버전과의 비교를 통한 분석을 수행한다.

실험 결과

연구 질문

RQ1복잡한 다중 브랜치 컨볼루션 블록을 효과적으로 훈련시킨 후 추론 비용 없이 단일 컨볼루션 레이어로 변환할 수 있는가?
RQ2다른 커널 크기, 풀링, 순차적 컨볼루션을 포함한 다양한 연결 방식이 동일하거나 선형 조합된 브랜치와 비교해 성능 향상에 얼마나 기여하는가?
RQ3배치 정규화가 유도하는 훈련 시 비선형성이 선형 조합 브랜치와 비교해 DBB의 표현 능력에 얼마나 큰 영향을 미치는가?
RQ4ResNet과 같은 기존 아키텍처에 아키텍처 변경 없이 DBB를 즉시 교체하여 일관된 성능 향상을 달성할 수 있는가?
RQ5DBB의 성능 향상은 더 나은 초기화 때문이 아니라 연결 다양성에 기인한 본질적 구조적 우수성 때문인가?

주요 결과

DBB는 표준 ResNet-18 대비 ImageNet에서 최대 1.9% 높은 상위-1 정확도를 달성하여 뚜렷한 성능 향상을 입증한다.
DBB의 어느 브랜치라도 제거할 경우 정확도가 감소함으로써 각 구성 요소가 모델의 표현 능력에 독립적으로 기여함을 확인한다.
(K×K + 1×1 + 1×1-AVG) 조합의 DBB는 2.3배 적은 훈련 시 파라미터를 가짐에도 불구하고 삼중 K×K 블록(70.40% 대비 70.29%)을 능가하여 연결 다양성이 파라미터 수보다 더 중요함을 입증한다.
약한 능력의 구성 요소(1×1 컨볼루션)와 강한 구성 요소(K×K 컨볼루션)의 조합이 두 개의 강력한 구성 요소(이중 K×K)보다 성능이 뛰어나, 구조적 다양성이 단순한 파라미터 증가를 넘어서 학습을 향상시킴을 시사한다.
브랜치 합산 이전에서 이후로 배치 정규화를 옮기면 성능 향상이 감소함(69.54% → 69.59%)으로, 훈련 시 비선형성이 DBB의 효과성에 핵심적임을 보여준다.
훈련 없이 DBB 가중치로 초기화한 기준 모델은 단지 69.67%의 정확도를 기록하여, 성능 향상이 초기화 때문이 아니라 훈련 과정과 구조적 특성에 기인함을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.