[論文レビュー] Dynamic Routing Between Capsules
Capsule networks (CapsNets) はインスタンス化パラメータを表すベクトルを用い、合意に基づくルーティング機構で出力を動的に上位カプセルへルーティングすることで、MNIST での高い性能と重なり合う数字に対する頑健性を実現する。
A capsule is a group of neurons whose activity vector represents the instantiation parameters of a specific type of entity such as an object or an object part. We use the length of the activity vector to represent the probability that the entity exists and its orientation to represent the instantiation parameters. Active capsules at one level make predictions, via transformation matrices, for the instantiation parameters of higher-level capsules. When multiple predictions agree, a higher level capsule becomes active. We show that a discrimininatively trained, multi-layer capsule system achieves state-of-the-art performance on MNIST and is considerably better than a convolutional net at recognizing highly overlapping digits. To achieve these results we use an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule.
研究の動機と目的
- カプセル出力をベクトルでエンコードされた存在確率とインスタンス化パラメータの向きで表現する表現を動機づける。
- 下位カプセル出力を適切な上位カプセルに割り当てるための合意に基づく動的ルーティングを導入する。
- ルーティングと再構成正則化を用いた CapsNets が、パラメータ数を抑えつつ競争力ある MNIST 精度を達成することを示す。
- アフィン変換に対する頑健性を示し、非常に重なり合う数字を分割できる能力をデモンストレーションする。
提案手法
- カプセルを、長さが存在確率を、向きがインスタンス化パラメータを符号化するベクトル出力を持つニューロンのグループとして定義する。
- 変換行列を用いてより上位カプセルのインスタンスを予測し、合意に基づくルーティングで結合係数を調整する。
- カプセル出力の長さを [0,1) に保つためのスクワッシング非線形性を用いる。
- 予測と出力の間の合意(ドット積)に基づいて、どの下位カプセルがどの上位カプセルへ-feed するかを反復的なルーティング(結合ロジットのソフトマックス)で洗練させる。
- 正解の有無を促すマージン損失を各数字クラスに対して適用する;数字カプセル全体で和をとる。
- ターゲット数字カプセルから入力を再構成してポーズエンコーディングを正則化する場合には再構成デコーダを任意で使用する。
実験結果
リサーチクエスチョン
- RQ1ベクトルベースのカプセル表現と合意に基づくルーティングを組み合わせると、MNIST のような数字認識タスクで CNN を上回ることができるのか。
- RQ2再構成を正則化として用いるとポーズエンコーディングとルーティング性能の品質が向上するのか。
- RQ3CapsNet は高度に重なり合う数字やアフィン変換を、従来の CNN と比較してどのように扱うのか。
- RQ4ルーティング反復回数とモデルサイズが分類精度とセグメンテーション能力に与える影響は何か。
主な発見
| Method | Routing | Reconstruction | MNIST (%) | MultiMNIST (%) |
|---|---|---|---|---|
| Baseline | - | - | 0.39 | 8.1 |
| CapsNet | 1 | no | 0.34±0.032 | - |
| CapsNet | 1 | yes | 0.29±0.011 | 7.5 |
| CapsNet | 3 | no | 0.35±0.036 | - |
| CapsNet | 3 | yes | 0.25±0.005 | 5.2 |
- CapsNets は ルーティングを用いて 0.25% MNIST エラーを達成(3 回のルーティング反復と再構成正則化)。
- CapsNet は ルーティングのみで 0.34% MNIST エラー;ルーティング+再構成で 0.29%;1 回の反復と 3 回の反復で性能が向上。
- MNIST における CapsNet は 8.2M パラメータ(再構成なしでは 6.8M)で、同等の CNN ベースラインの 35.4M パラメータに対して効率的。
- CapsNet は MNIST で 0.25%、MultiMNIST で 5.2% を達成;再構成正則化はルーティング性能を向上させる。
- CapsNet はアフィン変換に対して頑健性を示し、合意に基づくルーティングにより高度に重なる数字を分割できる。
- CIFAR-10 では CapsNets のアンサンブルが 10.6% のテストエラーを達成し、初期の CNN 結果と同等の性能を示す;smallNORB および SVHN でも競争力のある性能が報告されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。