QUICK REVIEW

[論文レビュー] Deep Perm-Set Net: Learn to predict sets with unknown permutation and cardinality using deep neural networks

S. Hamid Rezatofighi, Roman Kaskman|arXiv (Cornell University)|May 2, 2018

Advanced Neural Network Applications参考文献 1被引用数 20

ひとこと要約

本稿では、順列が未知でサイズが可変である集合の予測を可能にする深層学習フレームワーク、Deep Perm-Set Net を提案する。この手法は、順列を観測されない変数としてモデル化し、交互最適化を用いてその分布を推定する。本手法は、物体検出および複雑な CAPTCHA タスクにおいて、明示的な規則なしに算術的推論を学習することで、最先端の性能を達成する。

ABSTRACT

Many real-world problems, e.g. object detection, have outputs that are naturally expressed as sets of entities. This creates a challenge for traditional deep neural networks which naturally deal with structured outputs such as vectors, matrices or tensors. We present a novel approach for learning to predict sets with unknown permutation and cardinality using deep neural networks. Specifically, in our formulation we incorporate the permutation as unobservable variable and estimate its distribution during the learning process using alternating optimization. We demonstrate the validity of this new formulation on two relevant vision problems: object detection, for which our formulation outperforms state-of-the-art detectors such as Faster R-CNN and YOLO, and a complex CAPTCHA test, where we observe that, surprisingly, our set based network acquired the ability of mimicking arithmetics without any rules being coded.

研究の動機と目的

物体検出などのビジョンタスクにおける順序なしでサイズが可変な出力（集合）を扱えるように、従来の深層ネットワークの制限を克服すること。
非最大抑制のようなヒューリスティックな後処理に依存せずに、集合予測のためのエンドツーエンド学習を可能にすること。
集合要素の未知の順列を観測されない変数としてモデル化し、学習中にその分布を推定すること。
物体検出や複雑な CAPTCHA の解法といった現実世界の問題へのフレームワークの有効性を実証すること。
明示的な規則をコード化せずに、集合ベースのタスクで算術的推論に類似した推論をネットワークが暗黙的に学習できることを示すこと。

提案手法

モデルは集合要素の順列を観測されない変数として扱い、学習中にその分布を交互最適化により推定する。
集合予測タスクを、ネットワークパラメータと潜在的順列変数の両方の最適化として定式化する。
画像などの構造的入力から特徴を抽出するために、深層ニューラルネットワークのバックボーン（例：ResNet-101）を採用する。
学習中に、すべての可能な順列の組み合わせを考慮した損失関数を最小化する。離散的順列を扱うために微分可能近似を用いる。
固定サイズや順序付き表現を必要とせず、バウンディングボックスや数字の集合を出力するエンドツーエンド学習を可能にする。
予測された要素と正例との対応付けの最確信順列を学習することで、検出と識別を両方可能にする。

実験結果

リサーチクエスチョン

RQ1ヒューリスティックな後処理に依存せずに、順列とサイズが未知の集合を予測できるように深層ニューラルネットワークを学習させることは可能か？
RQ2集合要素の順列を観測されない変数としてモデル化することで、集合予測タスクの学習性能が向上するか？
RQ3提案されたフレームワークは、明示的な規則なしに、CAPTCHA 解法のようなタスクで暗黙的算術的推論を学習可能か？
RQ4Faster R-CNN や YOLO と比較して、高濃度のオクルージョン下での物体検出性能はどの程度か？
RQ5学習された順列分布は、曖昧または類似した外見のインスタンスにおいて、主要な順序パターンを特定するのを支援するか？

主な発見

提案された Deep Perm-Set Net は、模擬的および実データセットの両方で、Faster R-CNN や YOLO v2 を上回る物体検出性能を示し、特に高濃度のオクルージョン下で顕著である。
類似した外見の物体を識別するタスクで 81.1% の順列正確度を達成し、インスタンスレベルの対応付け学習が有効であることを示している。
CAPTCHA テストでは、95.2% の正確度で数字の和を求めるタスクを解き、Faster R-CNN（31.05%）や2段階検出器-分類器構成（59.28%）を大きく上回った。
Rezatofighi ら（2018）のベースライン集合ネットワークは収束せず、すべてのボックスが同じ位置に集中する退化した出力を生成した。これは順列を明示的にモデル化する必要性を示している。
明示的な算術規則のプログラミングなしに、CAPTCHA タスクで算術的推論を模倣する能力を学習しており、組み込み一般化の発生を示唆している。
非最大抑制のようなヒューリスティックなステップを一切含まないエンドツーエンド学習が可能であり、複数オブジェクトトラッキングのような複雑なタスクに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。