QUICK REVIEW

[論文レビュー] Xception: Deep Learning with Depthwise Separable Convolutions

François Chollet|arXiv (Cornell University)|Oct 7, 2016

Domain Adaptation and Few-Shot Learning参考文献 16被引用数 357

ひとこと要約

Xception は Inception モジュールを depthwise separable convolution に置き換え、パラメータ数が類似でありながら精度が同等または向上し、大規模データセット（JFT）では顕著な利得を得る。

ABSTRACT

We present an interpretation of Inception modules in convolutional neural networks as being an intermediate step in-between regular convolution and the depthwise separable convolution operation (a depthwise convolution followed by a pointwise convolution). In this light, a depthwise separable convolution can be understood as an Inception module with a maximally large number of towers. This observation leads us to propose a novel deep convolutional neural network architecture inspired by Inception, where Inception modules have been replaced with depthwise separable convolutions. We show that this architecture, dubbed Xception, slightly outperforms Inception V3 on the ImageNet dataset (which Inception V3 was designed for), and significantly outperforms Inception V3 on a larger image classification dataset comprising 350 million images and 17,000 classes. Since the Xception architecture has the same number of parameters as Inception V3, the performance gains are not due to increased capacity but rather to a more efficient use of model parameters.

研究の動機と目的

Inception モジュールを depthwise separable convolution に置き換えて効率を改善する動機づけ。
Residual connection を用いた depthwise separable convolution から成る完全なアーキテクチャ（Xception）の提案。
ImageNet および大規模 JFT データセットで Xception を Inception V3 と比較して評価。
残差接続と中間活性化が性能に与える影響の分析。
depthwise separable convolution を活用した今後の CNN 設計への示唆を検討。

提案手法

Inception モジュールを規則的な畳み込みと depthwise separable convolution の中間形として解釈。
Residual connections を用いた深さ方向の畳み込み 14 モジュール、36 層の線形スタックとして Xception を設計。
Inception V3 と同程度のパラメータ数で ImageNet（1000 クラス）と大規模 JFT ベースのタスク（17,000 クラス）を学習・評価。
同一の最適化・正則化設定の下で Inception V3 と性能を比較。
depthwise と pointwise 操作の間に中間の非線形性を置く・置かない場合の影響を、残差接続の有無とともに実験。

実験結果

リサーチクエスチョン

RQ1Inception モジュールを depthwise separable convolution に置換して、類似パラメータ数で分類性能は改善するのか。
RQ2残差接続は Xception の収束と最終精度にどのように影響するのか。
RQ3depthwise separable アーキテクチャにおいて depthwise と pointwise 異なる間の中間非線形性は有効か。
RQ4ImageNet における Xception の性能は Inception V3 と比べどうか、JFT ベースの大規模タスクではどうか。
RQ5深さ方向の separable convolution を用いる場合のモデルサイズと速度に対する実用的影響は何か。

主な発見

Dataset	Model	Top-1 accuracy	Top-5 accuracy
ImageNet	VGG-16	0.715	0.901
ImageNet	ResNet-152	0.770	0.933
ImageNet	Inception V3	0.782	0.941
ImageNet	Xception	0.790	0.945
JFT	Inception V3 - no FC layers	6.36	NA
JFT	Xception - no FC layers	6.70	NA
JFT	Inception V3 with FC layers	6.50	NA
JFT	Xception with FC layers	6.78	NA
ImageNet	Inception V3 (params anomaly)	N/A	N/A
ImageNet	Xception (params anomaly)	N/A	N/A
ImageNet	Inception V3	N/A	N/A
ImageNet	Xception	N/A	N/A

ImageNet において、Xception は Inception V3 よりも Top-1 精度および Top-5 精度がわずかに向上。
JFT（MAP@100）では、Xception は FC 層なしで 6.70、FC 層ありで 6.78 を達成し、Inception V3 の変種を上回る。
Xception は Inception V3 に似たパラメータ数（約 22.9M vs 23.6M）だが、JFT でより良い結果を出し、ImageNet でも同等またはより良い結果を示す。
Residual 接続は Xception の収束と性能にとって不可欠である。
Depthwise と pointwise の間に中間の非線形性を排除すると、このアーキテクチャの学習速度と最終的な精度が改善される可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。