Skip to main content
QUICK REVIEW

[논문 리뷰] Going Deeper with Convolutions

Christian Szegedy, Wei Liu|arXiv (Cornell University)|2014. 09. 17.
Advanced Neural Network Applications참고 문헌 12인용 수 1,382
한 줄 요약

이 논문은 파라미터 수가 이전 모델들보다 현저히 적은데도 ImageNet 분류 및 검출에서 최신 기술 성능을 달성하는 딥 컨volution 신경망 아키텍처인 Inception을 소개한다. 다양한 크기의 컨볼루션 필터와 1×1 컨볼루션을 사용한 혁신적인 Inception 모듈을 통해, 고정된 계산 예산 내에서 깊이와 넓이를 효율적으로 증가시켜, 6개의 모델 앙상블을 사용해 ILSVRC 2014 검출 도전대회에서 43.9% mAP를 기록했다.

ABSTRACT

We propose a deep convolutional neural network architecture codenamed "Inception", which was responsible for setting the new state of the art for classification and detection in the ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC 2014). The main hallmark of this architecture is the improved utilization of the computing resources inside the network. This was achieved by a carefully crafted design that allows for increasing the depth and width of the network while keeping the computational budget constant. To optimize quality, the architectural decisions were based on the Hebbian principle and the intuition of multi-scale processing. One particular incarnation used in our submission for ILSVRC 2014 is called GoogLeNet, a 22 layers deep network, the quality of which is assessed in the context of classification and detection.

연구 동기 및 목표

  • 계산 효율성을 유지하면서 표현력의 강화를 극대화하는 딥 컨volution 신경망을 설계하기 위해.
  • 계산 비용을 증가시키지 않고 이미지 분류 및 객체 검출 성능을 향상시키기 위해.
  • 파라미터 수나 FLOPs가 비례적으로 증가하지 않도록 하면서도 더 깊고 넓은 네트워크를 가능하게 하는 아키텍처 혁신을 탐색하기 위해.
  • 추론 효율성을 최적화하여 모바일 및 임베디드 장치에 실질적으로 구현 가능한 모델을 개발하기 위해.
  • Inception 모듈이 고정밀도·고효율 딥 네트워크를 가능하게 하는지 검증하기 위해.

제안 방법

  • 다양한 크기(1×1, 3×3, 5×5)의 병렬 컨볼루션 필터와 최대 풀링을 적용하여 다중 척도 특징을 추출하는 Inception 모듈을 도입한다.
  • 차원 감소를 위해 1×1 컨볼루션을 병렬 레이어로 사용하여 차원 감소와 계산 블로킹을 완화하고, 더 깊고 넓은 네트워크를 가능하게 한다.
  • 과적합과 파라미터 수를 줄이기 위해 풀 컨넥티드 레이어 대신 글로벌 평균 풀링을 사용한다.
  • 딥 네트워크에서 기울기 흐름과 학습 안정성을 향상시키기 위해 중간 레이어에 보조 분류기(보조 분류자)를 적용한다.
  • 고정된 계산 예산(15억 FLOPs)을 고려해 22층의 깊은 네트워크로 구성된 GoogLeNet 아키텍처를 설계하며, Inception 모듈을 반복적으로 스택한다.
  • R-CNN에 영감을 얻어 두 단계 검출 파이프라인을 채택하였으며, 다중 박스 제안을 위한 선택적 탐색과 Inception 기반 분류기 6개의 앙상블을 사용해 영역 분류를 수행한다.

실험 결과

연구 질문

  • RQ1아키텍처 효율성을 향상시켜 계산 비용을 증가시키지 않고도 더 높은 정확도를 달성할 수 있는가?
  • RQ2파라미터 증가를 최소화하면서도 다중 척도 특징 추출을 깊은 CNN에 효과적으로 통합할 수 있는가?
  • RQ31×1 컨볼루션은 더 깊고 넓은 네트워크를 가능하게 하기 위해 얼마나 효과적으로 차원 감소를 수행할 수 있는가?
  • RQ4매우 구조적이고 흐린 구조를 띤 아키텍처를 밀도 있고 학습 가능한 구성 요소로 근사화할 수 있는가?
  • RQ5동일한 계산 제약 조건 하에서 Inception 아키텍처는 표준 딥 네트워크보다 분류 및 객체 검출에서 뛰어난 성능을 보일 수 있는가?

주요 결과

  • 6개의 모델 앙상블을 사용해 ILSVRC 2014 검출 도전대회에서 43.9% mAP를 기록하여, 모든 다른 참가자들을 압도했다.
  • 2012년 ILSVRC 우승 아키텍처 대비 12배 적은 파라미터를 사용했지만, 훨씬 높은 정확도를 달성했다.
  • 1×1 컨볼루션의 사용으로 계산 부담이 감소하여, FLOPs를 증가시키지 않고도 더 깊고 넓은 네트워크를 구현할 수 있었다.
  • Inception 모듈은 서로 다른 커널 크기의 병렬 컨볼루션을 통해 다중 척도 패턴을 효과적으로 포착함으로써 특징 표현 능력을 향상시켰다.
  • 경계 상자 회귀나 맥락 모델링 없이도 단일 모델 검출에서 38.02% mAP를 기록하여 강력한 일반화 능력을 입증했다.
  • 아키텍처 설계 최적화를 통해 파라미터 수를 늘리지 않아도 고성능 모델을 구축할 수 있음을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.