Skip to main content
QUICK REVIEW

[논문 리뷰] Soft Conditional Computation.

Brandon Yang, Gabriel Bender|arXiv (Cornell University)|2019. 04. 10.
Advanced Neural Network Applications참고 문헌 15인용 수 7
한 줄 요약

이 논문은 각 입력 예제에 대해 전문화된 컨볼루션 커널을 학습하는 조건부 파rameterized 컨벌루션(CondConv)을 제안한다. 이는 추론 비용을 증가시키지 않으면서도 네트워크 용량을 증가시킨다. EfficientNet-B0의 표준 컨벌루션을 CondConv로 대체함으로써, 이 방법은 413M개의 승수-덧셈 연산만으로 ImageNet에서 78.3%의 top-1 정확도를 달성하며, 새로운 최고 성능을 수립한다.

ABSTRACT

Convolutional layers are one of the basic building blocks of modern deep neural networks. One fundamental assumption is that convolutional kernels should be shared for all examples in a dataset. We propose conditionally parameterized convolutions (CondConv), which learn specialized convolutional kernels for each example. Replacing normal convolutions with CondConv enables us to increase the size and capacity of a network, while maintaining efficient inference. We demonstrate that scaling networks with CondConv improves the performance and inference cost trade-off of several existing convolutional neural network architectures on both classification and detection tasks. On ImageNet classification, our CondConv approach applied to EfficientNet-B0 achieves state-of-the-art performance of 78.3% accuracy with only 413M multiply-adds. Code and checkpoints for the CondConv Tensorflow layer and CondConv-EfficientNet models are available at: this https URL.

연구 동기 및 목표

  • 표준 CNN에서 모든 입력에 대해 고정된 공유 컨벌루션 커널의 한계를 해결하기 위해.
  • 추론 비용을 증가시키지 않고 더 크고 더 표현력 있는 네트워크를 가능하게 하기 위해.
  • 기존 CNN 아키텍처에서 정확도와 추론 비용 간의 상호 트레이드오프를 향상시키기 위해.
  • 분류 및 검출 작업에서 조건부 커널 파arameterization의 효과를 입증하기 위해.

제안 방법

  • CondConv는 각 입력 예제에 대해 커널 가중치를 예측하는 라우팅 네트워크를 학습한다.
  • 각 컨벌루션 커널은 기저 커널들의 가중합이며, 가중치는 입력에 의해 결정된다.
  • 라우팅 네트워크는 미분 가능하며, 나머지 네트워크와 함께 엔드 투 엔드로 훈련된다.
  • 이 방법은 EfficientNet과 같은 기존 아키텍처의 표준 컨벌루션을 CondConv 레이어로 대체한다.
  • 각 레이어에서 기저 커널의 수를 적게 유지함으로써 계산 효율성을 유지한다.
  • 표준 역전파와 기울기 기반 최적화를 사용하여 모델을 훈련한다.

실험 결과

연구 질문

  • RQ1조건부 커널 파arameterization은 추론 비용을 증가시키지 않고 모델 용량을 향상시킬 수 있는가?
  • RQ2CondConv는 기존 CNN에서 정확도와 FLOP 간의 상호 트레이드오프에 어떤 영향을 미치는가?
  • RQ3CondConv는 이미지 분류 및 객체 검출과 같은 다양한 작업으로 일반화되는가?
  • RQ4효율적인 성능 스케일링을 위한 최적의 기저 커널 수는 얼마인가?
  • RQ5CondConv는 낮은 FLOP 수로 ImageNet에서 최고 성능을 달성할 수 있는가?

주요 결과

  • EfficientNet-B0에 CondConv를 적용한 결과, ImageNet에서 78.3%의 top-1 정확도를 달성하여 새로운 최고 성능을 수립했다.
  • 이 성능는 뿐만 아니라 높은 효율성을 나타내는 413M개의 승수-덧셈 연산만으로 달성되었다.
  • 여러 개의 CNN 아키텍처에 걸쳐 정확도와 추론 비용 간의 상호 트레이드오프가 향상되었다.
  • 성능 향상은 각 입력 예제에 맞는 전문화된 커널을 학습할 수 있는 능력 덕분으로 기인된다.
  • 적은 수의 기저 커널과 조건부 라우팅을 사용함으로써 추론 비용을 낮게 유지한다.
  • CondConv 레이어 및 모델의 코드와 체크포인트는 공개되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.