Skip to main content
QUICK REVIEW

[論文レビュー] Equivariant Transformer Networks

Kai Sheng Tai, Peter Bailis|arXiv (Cornell University)|Jan 25, 2019
Domain Adaptation and Few-Shot Learning参考文献 32被引用数 33
ひとこと要約

等変トランスフォーマー(ET)レイヤは、公準座標を介してドメインの不変性を組み込み、事前に定義された変換群に自己整合性を有する画像間マッピングを生成し、最小限のパラメータ overhead で頑健性とサンプル効率を向上させる。ETは投影歪みに対する標準のSTレイヤよりも性能を発揮し、精度を維持しつつネットワークサイズを削減できる。

ABSTRACT

How can prior knowledge on the transformation invariances of a domain be incorporated into the architecture of a neural network? We propose Equivariant Transformers (ETs), a family of differentiable image-to-image mappings that improve the robustness of models towards pre-defined continuous transformation groups. Through the use of specially-derived canonical coordinate systems, ETs incorporate functions that are equivariant by construction with respect to these transformations. We show empirically that ETs can be flexibly composed to improve model robustness towards more complicated transformation groups in several parameters. On a real-world image classification task, ETs improve the sample efficiency of ResNet classifiers, achieving relative improvements in error rate of up to 15% in the limited data regime while increasing model parameter count by less than 1%.

研究の動機と目的

  • ドメインの変換不変性に関する事前知識を活用してニューラルネットワークの頑健性を向上させる。
  • 事前に定義された連続変換群に対する不変性を課す微分可能なレイヤファミリーを開発する。
  • ETレイヤの積み重ねを通じて複数の変換不変性の組成を可能にする。
  • 実世界および合成画像タスクでのサンプル効率と精度の実用的な向上を示す。

提案手法

  • ある変換群 G に対して正準座標を用いる ET レイヤを導入し、自己整合性を達成する。
  • ETレイヤ L_{G,ρ}(φ) を、f_{ρ}(φ) が正準座標 ρ での自己整合ポーズ予測子であるとして L_{G,ρ}(φ) = T^{-1}_{f_{ρ}(φ)} φ と定義する。
  • 特性法による一階の偏微分方程式を解くことで Lie 群の正準座標 ρ を構築する。
  • 1つのρで全パラメータを捉えられない場合に、複数の変換群の組成を扱うため ET レイヤを積み重ねる。
  • ETレイヤを積み重ねる際に繰り返し補間を避けるため遅延リサンプリングを実装し、座標変換には二次の補間(双線形補間)を適用する。

実験結果

リサーチクエスチョン

  • RQ1Lie群の正準座標をどのように用いてニューラルネットワークに対する連続変換の不変性を課すことができるか?
  • RQ2ETレイヤは変換が多いタスクにおいて、Spatial Transformerより頑健性とサンプル効率を改善できるか?
  • RQ3複数パラメータの変換群に対してETレイヤを積み重ねることは実践的にどれほど効果的か?
  • RQ4補間アーティファクトを最小化した ET レイヤの実装における実践的考慮事項は何か?

主な発見

MethodTransformations# sampled transformations1248
Cartesian-11.919.677.646.93
Log-polar-6.555.054.483.83
ST-LPsh_x5.774.273.973.47
ST-LPsh_x hr4.923.873.223.03
ST-LP*sh_x5.484.673.633.21
ST-LP*sh_x hr4.183.172.962.62
ET-LPsh_x5.484.673.633.21
ET-LPsh_x hr4.183.172.962.62
  • ETレイヤは構成上局所的な不変性を生み出し、変換軌道を正準表現に縮約する。
  • Projective MNIST では、対数-極座標と変換を用いたETは、標準のSTおよびデカルト CNNのベースラインを、変換サンプル数の変動に関して上回る。
  • SVHN類似タスクの限られたデータ条件で、ETはベースラインに対して相対誤差率を最大で15%改善する。
  • ETレイヤを組み込んだ ResNet-10 は、ETなしのより大きな ResNet-34 の精度を上回りつつ、メモリと計算コストを削減できる。
  • ETレイヤの積み重ねは多パラメータの変換群に実践的な利点を提供し、単一パラメータ正準座標を超えた頑健性を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。