QUICK REVIEW

[論文レビュー] FSPool: Learning Set Representations with Featurewise Sort Pooling

Yan Zhang, Jonathon Hare|arXiv (Cornell University)|Jun 6, 2019

Domain Adaptation and Few-Shot Learning参考文献 40被引用数 34

ひとこと要約

FSPoolを導入した、変数サイズの集合に対してパーミュテーション等価のオートエンコーダを可能にし、責任問題を回避することで下流タスクを改善する、差動可能な特徴別ソートプーリング法。いくつかの集合ベースのベンチマークで再構成品質が優れ、収束が速いことを実証。

ABSTRACT

Traditional set prediction models can struggle with simple datasets due to an issue we call the responsibility problem. We introduce a pooling method for sets of feature vectors based on sorting features across elements of the set. This can be used to construct a permutation-equivariant auto-encoder that avoids this responsibility problem. On a toy dataset of polygons and a set version of MNIST, we show that such an auto-encoder produces considerably better reconstructions and representations. Replacing the pooling function in existing set encoders with FSPool improves accuracy and convergence speed on a variety of datasets.

研究の動機と目的

既存の集合予測モデルにおける責任問題と、それが単純な集合タスクの学習へ与える影響を特定する。
変数サイズ集合の微分可能なソーティングベースのプーリング機構であるFSPoolを提案する。
FSPoolが標準の再構成損失を用いた置換等価オートエンコーダを可能にすることを示す。
多角形、MNIST-set、CLEVR、グラフデータセットでの再構成品質と収束の改善を実証する。
既存モデルにおける標準プーリングをFSPoolへ置換する利点を探索する。

提案手法

各集合要素間で特徴をソートして、置換不変な表現を得る。
ソートされた特徴に学習可能な重み行列を適用してプール化されたベクトルを生成する。
連続的な区分線形キャリブレータを用いて可変サイズ集合へ拡張し、集合サイズに依存しないウェイトを生成する。
オートエンコーダモードでは、エンコーダのソートパーミュテーションを保持し、 differentiable sorting network を用いて微分可能なデコーダを可能にする；デコード時には逆パーミュテーションを適用する。
FSUnpoolを用いて潜在情報を可変サイズ集合へ分配し、元の順序を再構成する。

実験結果

リサーチクエスチョン

RQ1特徴ごとにソートされたプーリング表現は、従来の集合エンコーダ/デコーダに見られる責任問題を回避できるか。
RQ2FSPoolは単純な多角形集合での再構成誤差をほぼゼロに近づけ、MNIST-setその他の集合ベースベンチマークで再構成を改善するか。
RQ3標準プーリングをFSPoolに置換すると、CLEVR、グラフ分類、集合予測ネットワークのようなタスクで性能と収束にどのような影響を与えるか。

主な発見

Model	Accuracy (350 epochs)	Epochs to 98.00%	Epochs to 98.50%	Epochs to 99.00%	Time (approx., 1080 Ti)
FSPool	99.27 ± 0.18	141 ± 5	166 ± 16	209 ± 33	8.8 h
RN	98.98 ± 0.25	144 ± 6	189 ± 29	268 ± 46	15.5 h
Janossy	97.00 ± 0.54	–	–	–	11.5 h
Sum	99.05 ± 0.17	146 ± 13	191 ± 40	281 ± 56	8.0 h
Mean	98.96 ± 0.27	169 ± 6	225 ± 31	273 ± 33	8.0 h
Max	96.99 ± 0.26	–	–	–	8.0 h
MAC	99.0%	–	–	–	–

FSPoolは多角形の頂点集合のほぼ完全な再構成を実現し、従来の集合エンコーダ/デコーダで観察される責任問題に対処する。
ノイズ付きMNIST-set自動符号化において、FSPool–FSUnpoolは総和でプールしたベースラインより再構成品質で優れる。
MNIST-set分類では、事前学習済みエンコーディングを凍結してFSPoolを用いると、ベースラインより精度が高く、収束も速い。
CLEVRでは、FSPoolベースのモデルが最も高い精度と他の複数のベースライン（RNやJanossyプーリングを含む）よりもエポック進行が速い。
グラフ分類（GINベースライン）でプーリングをFSPoolに置換すると複数データセットで精度が向上し、収束も速くなる；CLEVRベースの集合予測タスクでは、エンコーダで使用した場合にもFSPoolが優れた結果を再び示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。