[論文レビュー] Mapping Images to Scene Graphs with Permutation-Invariant Structured Prediction
本論文は、画像からシーングラフを生成するための構造予測に対して、グラフ置換不変性(GPI)を用いた深層アーキテクチャを提案し、必要十分な形を証明するとともに Visual Genome で最新性能を達成した。
Machine understanding of complex images is a key goal of artificial intelligence. One challenge underlying this task is that visual scenes contain multiple inter-related objects, and that global context plays an important role in interpreting the scene. A natural modeling framework for capturing such effects is structured prediction, which optimizes over complex labels, while modeling within-label interactions. However, it is unclear what principles should guide the design of a structured prediction model that utilizes the power of deep learning components. Here we propose a design principle for such architectures that follows from a natural requirement of permutation invariance. We prove a necessary and sufficient characterization for architectures that follow this invariance, and discuss its implication on model design. Finally, we show that the resulting model achieves new state of the art results on the Visual Genome scene graph labeling benchmark, outperforming all recent approaches.
研究の動機と目的
- 多-object シーンにおける深層構造予測のための置換不変性の活用を動機づける。
- 置換不変アーキテクチャの必要十分な特徴付けを導出する。
- 画像をシーングラフへ写像するためのGPIベースのモデルを提案する。
- データ効率と Visual Genome での最先端性能を実証的に示す。
提案手法
- 構造予測出力のためのグラフ置換不変性(GPI)を定義する。
- GPI関数が存在することは、特定のアーキテクチャ(y_k = rho(z_k, sum_i alpha(z_i, sum_{j≠i} phi(z_i, z_{i,j}, z_j))))を用いて実装できることと「もしかつ」は等価であることを証明する。
- phi、alpha、rho が、グローバルなグラフ情報を置換不変な方法で集約する方法を示す。
- 自己同型(オートマorphism)を用いた不完全なグラフへの拡張を議論する。
- アテンション機構(アテンション)とリカレント変種が GPI フレームワークにどのように適合するかを説明する。
- 隣接ノードへのアテンションを用い、エンティティと関係変数を用いた GPI を使用する Scene Graph Predictor(SGP)を提示する。)
実験結果
リサーチクエスチョン
- RQ1グラフに対する深層構造予測アーキテクチャの設計において、置換不変性はどのように指針となり得るか?
- RQ2グラフ置換不変性(GPI)を保証しつつ、シーングラフ予測のような複雑なタスクにも表現力を持つ正確なアーキテクチャ形式とは何か?
- RQ3GPIベースのモデルは、非GPIの深層モデルと比較して、シーングラフ生成のデータ効率と性能を向上させるか?
- RQ4アテンションとリカレント構成を GPI フレームワークに統合して、スケーラブルで並列化可能な予測を実現できるか?
主な発見
| Model | SGCls R@50 (Constrained) | SGCls R@100 (Constrained) | PredCls R@50 (Constrained) | PredCls R@100 (Constrained) | SGCls R@50 (Unconstrained) | SGCls R@100 (Unconstrained) | PredCls R@50 (Unconstrained) | PredCls R@100 (Unconstrained) |
|---|---|---|---|---|---|---|---|---|
| Lu et al., 2016 | 11.8 | 14.1 | 35.0 | 27.9 | - | - | - | - |
| Xu et al., 2017 | 21.7 | 24.4 | 44.8 | 53.0 | - | - | - | - |
| Pixel2Graph (Newell & Deng, 2017) | - | - | - | - | 26.5 | 30.0 | 68.0 | 75.2 |
| Graph R-CNN (Yang et al., 2018) | 29.6 | 31.6 | 54.2 | 59.1 | - | - | - | - |
| Neural Motifs (Zellers et al., 2017) | 35.8 | 36.5 | 65.2 | 67.1 | 44.5 | 47.7 | 81.1 | 88.3 |
| Baseline (Zellers et al., 2017) | 34.6 | 35.3 | 63.7 | 65.6 | 43.4 | 46.6 | 78.8 | 85.9 |
| No Attention | 35.3 | 37.2 | 64.5 | 66.3 | 44.1 | 48.5 | 79.7 | 86.7 |
| Neighbor Attention | 35.7 | 38.5 | 64.6 | 66.6 | 44.7 | 49.9 | 80.0 | 87.1 |
| Linguistic | 36.5 | 38.8 | 65.1 | 66.9 | 45.5 | 50.8 | 80.8 | 88.2 |
- GPI アーキテクチャは、合成グラフラベリングタスクで正解解に収束するのに必要なサンプル数を少なくする。
- アテンションと語彙的特徴を備えた GPI ベースの Scene Graph Predictor(SGP)は、Visual Genome で SGCls のリコールを最先端に、PredCls で競争力のある結果を達成する。
- GPI のバリアント(ノーアテンション、隣人アテンション、語彙的要素)は、制約付きおよび制約なしの評価で一貫してベースラインを上回る。
- 提案されたモデルは、関連する隣接エンティティに注意を向けて予測を精練することを効果的に学習する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。