[論文レビュー] Pixels to Graphs by Associative Embedding
この論文は、連想埋め込みを用いてピクセルから直接完全なシーングラフを予測する単段エンドツーエンドCNNを提案し、外部 proposal システムに依存せずに Visual Genome で最先端の結果を達成する。
Graphs are a useful abstraction of image content. Not only can graphs represent details about individual objects in a scene but they can capture the interactions between pairs of objects. We present a method for training a convolutional neural network such that it takes in an input image and produces a full graph definition. This is done end-to-end in a single stage with the use of associative embeddings. The network learns to simultaneously identify all of the elements that make up a graph and piece them together. We benchmark on the Visual Genome dataset, and demonstrate state-of-the-art performance on the challenging task of scene graph generation.
研究の動機と目的
- 画像からのエンドツーエンドのグラフ予測を動機づけ、物体とそれらの関係をシーングラフで捉える。
- 事前に定義されたスロットを使わず、グラフの頂点(物体)とエッジ(関係)を結ぶ手段として連想埋め込みを導入する。
- ピクセル空間に基づく unordered かつ重なる検出を前提とした訓練方式を開発する。
- Visual Genome でベンチマークを行い、先行研究に比べて有意な改善を示す。
提案手法
- 高解像度CNN出力(頂点用熱マップ、エッジ用熱マップ)を用いて、グラフ要素(頂点とエッジ)を各ピクセル位置に配置する。
- ピクセルごとの特徴から、完全連結層のヘッドを介して頂点/エッジの性質(クラス、境界ボックス、関係タイプ)を予測する。
- 各頂点に一意の埋め込みを割り当てる連想埋め込みを用い、エッジはソース/ターゲットの埋め込みを参照してグラフを形成する。
- 同一頂点の埋め込みを一体化し、異なる頂点を離すよう引き寄せ-押し出しの埋め込み損失を用いて訓練し、マージン m=8、埋め込み次元 d=8 とする。
- ピクセルあたり複数のスロットを用いて重複検出に対処し、訓練時にハンガリアンマッチングでグラウンドトゥルース要素をスロットに割り当てる。
- エッジ埋め込みを対応する頂点埋め込みにマッチングさせて要素を接続し、最終的なグラフを構築する。
実験結果
リサーチクエスチョン
- RQ1CNNは領域提案なしで画像から直接、オブジェクトとそれらの関係を含むシーングラフ全体を予測できるのか?
- RQ2 unordered 出力設定で、連想埋め込みをどのように用いてグラフ要素(頂点とエッジ)を参照・接続できるか?
- RQ3訓練および推論時に、同じピクセル位置に grounded された複数のグラフ要素をどう扱うか?
- RQ4Visual Genome におけるシーングラフ生成でどの程度の性能向上が得られるか?
主な発見
| 設定 | R@50 | R@100 | R@50 | R@100 | R@50 | R@100 | R@50 | R@100 |
|---|---|---|---|---|---|---|---|---|
| Lu et al. | – | – | 0.3 | 0.5 | 11.8 | 14.1 | 27.9 | 35.0 |
| Xu et al. | – | – | 3.4 | 4.2 | 21.7 | 24.4 | 44.8 | 53.0 |
| Our model | 6.7 | 7.8 | 9.7 | 11.3 | 26.5 | 30.0 | 68.0 | 75.2 |
| Our model (03/2018) | 15.5 | 18.8 | – | – | 35.7 | 38.4 | 82.0 | 86.4 |
- SGGen、SGCls、PredCls のタスクで Visual Genome のシーングラフ生成において最先端の成果を達成。
- RPNなしで、Raw images からのエンドツーエンドのグラフ予測を効果的に実現することを示す。
- 連想埋め込みと unordered 出力スロットを用いたモデルは、Visual Genome のベンチマークで先行手法を著しく上回る。
- 効率的なコードでの長期訓練は新たな利得を生み出し、(例) 03/2018 の結果は設定全体で大幅な改善を示す。
- このアプローチは述語分布の偏りを明らかにし、スロットが述語のサブセット(例:behind、has、in、of、on)によってどのように整理されるかを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。