Skip to main content
QUICK REVIEW

[論文レビュー] FSPool: Learning Set Representations with Featurewise Sort Pooling

Yan Zhang, Jonathon Hare|arXiv (Cornell University)|Jun 6, 2019
Domain Adaptation and Few-Shot Learning参考文献 40被引用数 34
ひとこと要約

FSPoolを導入した、変数サイズの集合に対してパーミュテーション等価のオートエンコーダを可能にし、責任問題を回避することで下流タスクを改善する、差動可能な特徴別ソートプーリング法。いくつかの集合ベースのベンチマークで再構成品質が優れ、収束が速いことを実証。

ABSTRACT

Traditional set prediction models can struggle with simple datasets due to an issue we call the responsibility problem. We introduce a pooling method for sets of feature vectors based on sorting features across elements of the set. This can be used to construct a permutation-equivariant auto-encoder that avoids this responsibility problem. On a toy dataset of polygons and a set version of MNIST, we show that such an auto-encoder produces considerably better reconstructions and representations. Replacing the pooling function in existing set encoders with FSPool improves accuracy and convergence speed on a variety of datasets.

研究の動機と目的

  • 既存の集合予測モデルにおける責任問題と、それが単純な集合タスクの学習へ与える影響を特定する。
  • 変数サイズ集合の微分可能なソーティングベースのプーリング機構であるFSPoolを提案する。
  • FSPoolが標準の再構成損失を用いた置換等価オートエンコーダを可能にすることを示す。
  • 多角形、MNIST-set、CLEVR、グラフデータセットでの再構成品質と収束の改善を実証する。
  • 既存モデルにおける標準プーリングをFSPoolへ置換する利点を探索する。

提案手法

  • 各集合要素間で特徴をソートして、置換不変な表現を得る。
  • ソートされた特徴に学習可能な重み行列を適用してプール化されたベクトルを生成する。
  • 連続的な区分線形キャリブレータを用いて可変サイズ集合へ拡張し、集合サイズに依存しないウェイトを生成する。
  • オートエンコーダモードでは、エンコーダのソートパーミュテーションを保持し、 differentiable sorting network を用いて微分可能なデコーダを可能にする;デコード時には逆パーミュテーションを適用する。
  • FSUnpoolを用いて潜在情報を可変サイズ集合へ分配し、元の順序を再構成する。

実験結果

リサーチクエスチョン

  • RQ1特徴ごとにソートされたプーリング表現は、従来の集合エンコーダ/デコーダに見られる責任問題を回避できるか。
  • RQ2FSPoolは単純な多角形集合での再構成誤差をほぼゼロに近づけ、MNIST-setその他の集合ベースベンチマークで再構成を改善するか。
  • RQ3標準プーリングをFSPoolに置換すると、CLEVR、グラフ分類、集合予測ネットワークのようなタスクで性能と収束にどのような影響を与えるか。

主な発見

ModelAccuracy (350 epochs)Epochs to 98.00%Epochs to 98.50%Epochs to 99.00%Time (approx., 1080 Ti)
FSPool99.27 ± 0.18141 ± 5166 ± 16209 ± 338.8 h
RN98.98 ± 0.25144 ± 6189 ± 29268 ± 4615.5 h
Janossy97.00 ± 0.5411.5 h
Sum99.05 ± 0.17146 ± 13191 ± 40281 ± 568.0 h
Mean98.96 ± 0.27169 ± 6225 ± 31273 ± 338.0 h
Max96.99 ± 0.268.0 h
MAC99.0%
  • FSPoolは多角形の頂点集合のほぼ完全な再構成を実現し、従来の集合エンコーダ/デコーダで観察される責任問題に対処する。
  • ノイズ付きMNIST-set自動符号化において、FSPool–FSUnpoolは総和でプールしたベースラインより再構成品質で優れる。
  • MNIST-set分類では、事前学習済みエンコーディングを凍結してFSPoolを用いると、ベースラインより精度が高く、収束も速い。
  • CLEVRでは、FSPoolベースのモデルが最も高い精度と他の複数のベースライン(RNやJanossyプーリングを含む)よりもエポック進行が速い。
  • グラフ分類(GINベースライン)でプーリングをFSPoolに置換すると複数データセットで精度が向上し、収束も速くなる;CLEVRベースの集合予測タスクでは、エンコーダで使用した場合にもFSPoolが優れた結果を再び示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。