QUICK REVIEW

[논문 리뷰] Xception: Deep Learning with Depthwise Separable Convolutions

François Chollet|arXiv (Cornell University)|2016. 10. 07.

Domain Adaptation and Few-Shot Learning참고 문헌 16인용 수 357

한 줄 요약

Xception 은 Inception 모듈을 depthwise separable convolution으로 대체하여 비슷한 매개변수 수로 비슷하거나 더 나은 정확도를 달성하고, 특히 대규모 데이터셋(JFT)에서 상당히 높은 이점을 보인다.

ABSTRACT

We present an interpretation of Inception modules in convolutional neural networks as being an intermediate step in-between regular convolution and the depthwise separable convolution operation (a depthwise convolution followed by a pointwise convolution). In this light, a depthwise separable convolution can be understood as an Inception module with a maximally large number of towers. This observation leads us to propose a novel deep convolutional neural network architecture inspired by Inception, where Inception modules have been replaced with depthwise separable convolutions. We show that this architecture, dubbed Xception, slightly outperforms Inception V3 on the ImageNet dataset (which Inception V3 was designed for), and significantly outperforms Inception V3 on a larger image classification dataset comprising 350 million images and 17,000 classes. Since the Xception architecture has the same number of parameters as Inception V3, the performance gains are not due to increased capacity but rather to a more efficient use of model parameters.

연구 동기 및 목표

Inception 모듈을 depthwise separable convolutions로 대체하여 효율성을 향상시키려는 동기 부여.
Residual 연결을 사용한 깊이 방향 분리 합성곱으로 구성된 완전한 아키텍처(Xception)를 제안.
ImageNet(1000 클래스) 및 대규모 JFT 기반 태스크(17,000 클래스)에서 Inception V3와 Xception를 비교 평가.
잔차 연결 및 중간 활성화가 성능에 미치는 영향 분석.
깊이 방향 분리 합성곱을 활용한 향후 CNN 설계에 대한 시사점 논의.

제안 방법

Inception 모듈을 일반 합성곱과 depthwise separable convolution 사이의 중간 형태로 해석한다.
잔차 연결을 사용하여 36개의 계층과 14개의 모듈로 구성된 depthwise separable convolutions의 선형 스택으로 Xception를 설계한다.
Inception V3와 비교 가능한 매개변수 수로 ImageNet(1,000 클래스) 및 대규모 JFT 기반 태스크(17,000 클래스)에서 학습 및 평가한다.
동일한 최적화 및 정규화 설정하에서 Inception V3와의 성능을 비교한다.
depthwise와 pointwise 연산 사이의 중간 비선형성의 유무로 잔차 연결의 존재 여부를 실험한다.

실험 결과

연구 질문

RQ1유사한 매개변수 수를 가질 때 depthwise separable convolution으로 Inception 모듈을 대체하면 분류 성능이 향상되는가?
RQ2잔차 연결이 Xception의 수렴 및 최종 정확도에 어떤 영향을 미치는가?
RQ3depthwise separable 아키텍처에서 depthwise와 pointwise 합성곱 사이의 중간 비선형성이 유익한가?
RQ4ImageNet에서 Xception의 성능은 Inception V3와 비교했을 때 어떠하며, 대규모 JFT 기반 태스크에서의 성능은 어떤가?
RQ5깊이 방향 분리 합성곱 사용 시 모델 크기와 속도에 대한 실용적 시사점은 무엇인가?

주요 결과

데이터셋	모델	Top-1 정확도	Top-5 정확도
ImageNet	VGG-16	0.715	0.901
ImageNet	ResNet-152	0.770	0.933
ImageNet	Inception V3	0.782	0.941
ImageNet	Xception	0.790	0.945
JFT	Inception V3 - no FC layers	6.36	NA
JFT	Xception - no FC layers	6.70	NA
JFT	Inception V3 with FC layers	6.50	NA
JFT	Xception with FC layers	6.78	NA
ImageNet	Inception V3 (params anomaly)	N/A	N/A
ImageNet	Xception (params anomaly)	N/A	N/A
ImageNet	Inception V3	N/A	N/A
ImageNet	Xception	N/A	N/A

ImageNet에서 Xception은 Inception V3보다 약간 더 나은 Top-1 정확도와 Top-5 정확도를 보인다.
JFT(MAP@100)에서 Xception은 FC 계층 없이 6.70, FC 계층 포함 6.78로 Inception V3 변형보다 우수하다.
Xception은 Inception V3와 유사한 매개변수 수(약 22.9M 대 23.6M)를 가지지만 JFT에서 더 나은 결과를 얻고 ImageNet에서도 비슷하거나 더 나은 결과를 얻는다.
잔차 연결은 Xception의 수렴과 성능에 필수적이다.
Depthwise와 pointwise 합성곱 사이의 중간 비선형성을 제거하면 이 아키텍처에서 학습 속도와 최종 정확도가 개선될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.