QUICK REVIEW

[論文レビュー] Conditional Set Generation with Transformers

Adam R. Kosiorek, Hyunjik Kim|arXiv (Cornell University)|Jun 26, 2020

Advanced Image and Video Retrieval Techniques参考文献 22被引用数 24

ひとこと要約

本稿では、勾配ベースの最適化を学習可能なトランスフォーマーに基づく変換に置き換えることで、置換に不変な条件付き集合生成のためのモデルであるTransformer Set Prediction Network（TSPN）を提案する。TSPNは、点群生成およびオブジェクト検出タスクにおいて、生成品質と未学習の集合サイズへの一般化性能を向上させ、DSPNを著しく上回る精度と頑健性を達成する。

ABSTRACT

A set is an unordered collection of unique elements--and yet many machine learning models that generate sets impose an implicit or explicit ordering. Since model performance can depend on the choice of order, any particular ordering can lead to sub-optimal results. An alternative solution is to use a permutation-equivariant set generator, which does not specify an order-ing. An example of such a generator is the DeepSet Prediction Network (DSPN). We introduce the Transformer Set Prediction Network (TSPN), a flexible permutation-equivariant model for set prediction based on the transformer, that builds upon and outperforms DSPN in the quality of predicted set elements and in the accuracy of their predicted sizes. We test our model on MNIST-as-point-clouds (SET-MNIST) for point-cloud generation and on CLEVR for object detection.

研究の動機と目的

既存の集合生成モデルが暗黙的または明示的な順序付けを課すという制限を解決すること。これは、責任問題に起因し、最適でない性能をもたらす可能性がある。
置換に不変であり、学習時に見られなかった集合サイズに対しても一般化可能な、より表現力があり柔軟な集合予測モデルの開発。
DSPNの固定初期集合と勾配降下最適化の欠陊を克服すること。これにより表現力とスケーラビリティが制限されている。
局所最適解を回避する、原理的で効果的な集合基数の学習手法を導入すること。これにより動的かつ正確なサイズ予測が可能になる。
set-MNIST自己符号化およびCLEVRオブジェクト検出などの条件付き集合生成タスクにおける優れた性能を実証すること。

提案手法

TSPNは、DSPNの勾配ベースの更新メカニズムを、初期集合要素に対して一括で置換に不変な変換を実行する、学習可能なトランスフォーマーのエンコーダ・デコーダアーキテクチャに置き換える。
モデルは初期集合要素の分布を学習し、テスト時に望みの基数の初期集合をサンプリング可能となる。これにより、動的サイズ一般化が可能になる。
集合基数はエンドツーエンドで学習可能なヘッドを介して予測され、これによりDSPNの基数学習法で見られる局所最適解の問題を回避する。
モデルは学習可能な初期集合分布を使用し、マルチヘッド自己注意とフィードフォワードネットワークを用いて、置換に不変な方法で集合要素を更新する。
訓練は、入力特徴量にResNet-34エンコーダを用いたチェイミング損失を用い、標準的なバックプロパゲーションとAdam最適化により実行される。
アーキテクチャはスケーラブルかつ一般化可能に設計されており、層間のパラメータ共有を一切行わないことで表現能力を保持する。

実験結果

リサーチクエスチョン

RQ1トランスフォーマー基盤のアーキテクチャは、置換に不変性を保ちつつ、勾配ベースの最適化を上回る性能を発揮できるか？
RQ2エンドツーエンドで集合基数を学習することで、学習時に見られなかった集合サイズへの一般化性能が向上するか？
RQ3固定初期集合と比較して、分布ベースの初期集合サンプリング戦略は、モデルの柔軟性と性能を向上させられるか？
RQ4点群およびオブジェクト検出ベンチマークにおいて、TSPNはDSPNおよびc-DSPNと比較して、生成品質と頑健性に優れているか？
RQ5TSPNは、学習分布よりも著しく大きな集合サイズにまで外挿できるか、その程度はどの程度か？

主な発見

CLEVRオブジェクト検出タスクにおいて、TSPNは0.58のセットサイズRMSEを達成し、c-DSPN（1.74）およびDSPN（2.53）を著しく上回り、優れた基数予測性能を示している。
CLEVRにおいてTSPNはAP50が81.2を達成し、c-DSPN（71.6）およびDSPN（67.7）を大きく上回り、より高いオブジェクト検出精度を示している。
set-MNISTでは、TSPNは1000ポイントまでの集合サイズに効果的に一般化できるが、c-DSPNは学習済みの集合サイズを超えて一般化に失敗しており、優れた外挿能力を示している。
TSPNは、学習時に見られなかった非常に異なる基数の集合を生成する際も、安定的かつ正確な性能を維持する。これに対してc-DSPNは、このような条件下で著しく性能が低下する。
set-MNISTにおいて、TSPNはDSPNおよびc-DSPNと比較してチェイミング損失を著しく低減しており、より高品質な点群生成を示している。
提案された基数学習法は局所最適解を回避しており、多様なテストセットサイズにおいて一貫した正確なサイズ予測が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。