Skip to main content
QUICK REVIEW

[論文レビュー] CyCNN: A Rotation Invariant CNN using Polar Mapping and Cylindrical Convolution Layers

Jin-Pyo Kim, Wooekun Jung|arXiv (Cornell University)|Jul 21, 2020
Advanced Neural Network Applications参考文献 35被引用数 32
ひとこと要約

CyCNNは回転を極 mapping で変換し、Polar mappingと cylindrical convolution layersを用いて回転不変性を達成し、データ拡張なしで回転画像分類を改善します。

ABSTRACT

Deep Convolutional Neural Networks (CNNs) are empirically known to be invariant to moderate translation but not to rotation in image classification. This paper proposes a deep CNN model, called CyCNN, which exploits polar mapping of input images to convert rotation to translation. To deal with the cylindrical property of the polar coordinates, we replace convolution layers in conventional CNNs to cylindrical convolutional (CyConv) layers. A CyConv layer exploits the cylindrically sliding windows (CSW) mechanism that vertically extends the input-image receptive fields of boundary units in a convolutional layer. We evaluate CyCNN and conventional CNN models for classification tasks on rotated MNIST, CIFAR-10, and SVHN datasets. We show that if there is no data augmentation during training, CyCNN significantly improves classification accuracies when compared to conventional CNN models. Our implementation of CyCNN is publicly available on https://github.com/mcrl/CyCNN.

研究の動機と目的

  • CNNにおける回転不変な画像分類の必要性を動機づける。
  • 入力を極座標にマッピングして回転を平行移動に変換するパイプラインを提案する。
  • 円筒形スライディング窓を用いた Cylindrical Convolution (CyConv) 層を導入する。
  • パラメータ数を維持しつつ CyCNN がデータ拡張なしで回転画像分類を改善することを示す。

提案手法

  • 入力画像をデカルト座標から極座標(または対数極座標)へ変換して回転を平行移動に変換する。
  • 標準の畳み込み層を Cylindrical Convolution (CyConv) 層に置換し、円筒状に滑動する窓(CSW)を使用する。
  • 境界行を巻き付けて円筒状入力を作成し、フィルターによる全円筒走査を可能にする。
  • 学習を高速化するための Cylindrical Winograd (CyWino) 畳み込みを任意で実装する。
  • 表現と層の型を変更するだけで元のCNNと同じ学習可能パラメータ数を維持する。

実験結果

リサーチクエスチョン

  • RQ1 polar座標変換はCNNにおける回転変動を平行移動変動へ変換できるか?
  • RQ2CyConv 層はモデル規模を増やさず回転不変性を改善するか?
  • RQ3CyCNNは回転版の標準データセット(MNIST, SVHN, CIFAR-10, CIFAR-100)で従来のCNNと比較してどうか?
  • RQ4データ拡張(回転、平行移動)が CyCNN とベースラインCNN に与える影響は?

主な発見

モデルMNIST-rSVHN-rCIFAR-10-rCIFAR-100-r
VGG1947.20%36.12%32.56%16.73%
VGG19-P55.53%43.24%38.21%19.96%
VGG19-LP55.38%44.76%37.30%18.14%
CyVGG19-P85.49%79.77%57.58%29.76%
CyVGG19-LP82.90%73.91%55.94%28.32%
ResNet5644.11%35.34%32.05%17.00%
ResNet56-P58.95%50.39%38.74%21.26%
ResNet56-LP59.55%48.95%37.54%20.06%
CyResNet56-P96.71%80.25%61.27%34.10%
CyResNet56-LP96.84%76.71%57.08%29.15%
  • 極 mapping は回転データ上でベースラインCNNの精度を元のCNNより改善する。
  • CyConv 層を用いた CyCNN は、拡張なしで訓練した場合、対応するベースラインCNNより回転画像の精度を顕著に改善する。
  • 回転+平行移動の拡張を用いると、いくつかのデータセットで CyCNN はベースラインと競合する精度を達成する。
  • CyCNN は元のCNNと同じ学習可能パラメータ数を維持し、CyWino の最適化が進んだ後は訓練時間が遅くなる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。