QUICK REVIEW

[論文レビュー] Vision GNN: An Image is Worth Graph of Nodes

Kai Han, Yunhe Wang|arXiv (Cornell University)|Jun 1, 2022

Advanced Neural Network Applications被引用数 194

ひとこと要約

ViGは画像をパッチのグラフとして表現し、GrapherおよびFFNモジュールを備えたグラフニューラルネットワークを用いることで、ImageNetとCOCOにおいて様々なバックボーンを上回る。

ABSTRACT

Network architecture plays a key role in the deep learning-based computer vision system. The widely-used convolutional neural network and transformer treat the image as a grid or sequence structure, which is not flexible to capture irregular and complex objects. In this paper, we propose to represent the image as a graph structure and introduce a new Vision GNN (ViG) architecture to extract graph-level feature for visual tasks. We first split the image to a number of patches which are viewed as nodes, and construct a graph by connecting the nearest neighbors. Based on the graph representation of images, we build our ViG model to transform and exchange information among all the nodes. ViG consists of two basic modules: Grapher module with graph convolution for aggregating and updating graph information, and FFN module with two linear layers for node feature transformation. Both isotropic and pyramid architectures of ViG are built with different model sizes. Extensive experiments on image recognition and object detection tasks demonstrate the superiority of our ViG architecture. We hope this pioneering study of GNN on general visual tasks will provide useful inspiration and experience for future research. The PyTorch code is available at https://github.com/huawei-noah/Efficient-AI-Backbones and the MindSpore code is available at https://gitee.com/mindspore/models.

研究の動機と目的

Visualデータをグリッドやシーケンスではなくグラフとして表現する動機づけと探索。
パッチをノードとして処理するグラフベースのバックボーン（ViG）を提案し、GrapherおよびFFNモジュールで処理する。
Isotropicと pyramid ViG アーキテクチャを分類や検出といったビジョンタスク全般で検証する。
ImageNet分類とCOCO物体検出/セグメンテーションでViGの有効性を示す。
グラフ構築とチャネルごとの特徴多様性に関する洞察を提供し、GNNの過平滑化へ対処する。

提案手法

画像をNパッチに変換し、パッチをノードとして扱い、各ノードをK近傍ノードと接続してグラフG(X)を形成する。
最大相対グラフ畳み込みに基づくGrapherモジュールを用いてノード特徴を集約・更新し、マルチヘッド機構を適用する。
ノードごとの特徴変換を行い多様性を維持するために、FFNモジュール（2つの線形層とGELU）を適用する。
GrapherとFFNブロックを積み重ねてViGを構築し、等方ネットワークとピラミッドネットワークのバリアントを用意する。
等方・ピラミッド双方で絶対位置エンコーディング、ピラミッドでは相対位置エンコーディングを組み込み、空間情報を注入する。
標準的なビジョンデータ拡張と最適化戦略で訓練を行い、Grapherの膨張的集約と多様性を保つためのスキップ接続を採用する。

実験結果

リサーチクエスチョン

RQ1画像パッチのグラフベース表現は標準のビジョンベンチマークでグリッド/シーケンスベースのバックボーンを上回るか。
RQ2GrapherとFFNモジュールはネットワークが深くなると過平滑化を防ぎ特徴多様性を保てるか。
RQ3等方ViGとピラミッドViGのアーキテクチャは分類と検出タスクでどう比較されるか。
RQ4グラフ構築の選択肢（K、ヘッド数）はViGの性能にどのような影響を与えるか。
RQ5ViGバックボーンはImageNetとCOCOでCNNs、MLPs、トランスフォーマーと比べてどうか。

主な発見

Model	Resolution	Params (M)	FLOPs (B)	Top-1	Top-5
ViG-Ti	224 x 224	7.1	1.3	73.9	92.0
ViG-S	224 x 224	22.7	4.5	80.4	95.2
ViG-B	224 x 224	86.8	17.7	82.3	95.9

ピラミッドViG-SはImageNetでトップ1精度82.1%を達成し、約4.5B FLOPsで類似のFLOPsのCNNs、MLPs、トランスフォーマーをこの設定で上回る。
等方ViGバリアント（Ti、S、B）はモデルサイズの増加とともに競争力のある性能を示す（ViG-Ti でTop-1 73.9%、ViG-Sで80.4%、ViG-Bで82.3%）。
ViGバックボーンはRetinaNetおよびMask R-CNNフレームワークでCOCOの物体検出とインスタンス分割において代表的なバックボーンを上回る。
グラフ畳み込みの中でMax-Relative GraphConvはFLOPsと精度の間で有利なトレードオフを提供する（表6）。
GrapherにFCを、ViGブロックにFFNを導入することで精度が向上し、過平滑化への対策と特徴多様性の改善につながる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。