QUICK REVIEW

[論文レビュー] Multi-Graph Transformer for Free-Hand Sketch Recognition

Peng Xu, Chaitanya K. Joshi|arXiv (Cornell University)|Dec 24, 2019

Advanced Image and Video Retrieval Techniques参考文献 64被引用数 34

ひとこと要約

この論文はスケッチを疎結合グラフとして表現し、複数のグラフ構造を用いて局所的なジオメトリと全体的な時間関係を捉えるMulti-Graph Transformerを導入し、スケッチ認識性能を高めている。

ABSTRACT

Learning meaningful representations of free-hand sketches remains a challenging task given the signal sparsity and the high-level abstraction of sketches. Existing techniques have focused on exploiting either the static nature of sketches with Convolutional Neural Networks (CNNs) or the temporal sequential property with Recurrent Neural Networks (RNNs). In this work, we propose a new representation of sketches as multiple sparsely connected graphs. We design a novel Graph Neural Network (GNN), the Multi-Graph Transformer (MGT), for learning representations of sketches from multiple graphs which simultaneously capture global and local geometric stroke structures, as well as temporal information. We report extensive numerical experiments on a sketch recognition task to demonstrate the performance of the proposed approach. Particularly, MGT applied on 414k sketches from Google QuickDraw: (i) achieves small recognition gap to the CNN-based performance upper bound (72.80% vs. 74.22%), and (ii) outperforms all RNN-based models by a significant margin. To the best of our knowledge, this is the first work proposing to represent sketches as graphs and apply GNNs for sketch recognition. Code and trained models are available at https://github.com/PengBoXiangShang/multigraph_transformer.

研究の動機と目的

自由筆スケッチをグラフとしてモデリングし、疎で抽象的なストローク構造をより良く捉える動機づけ。
複数の疎なグラフを表すスケッチに対して動作するTransformerベースのアーキテクチャを開発。
Multi-Graph TransformerがRNNベースのモデルを上回り、QuickDrawデータ上でCNNベース手法と競合することを示す。
本手法の堅牢性とスケッチ以外のタスクへの適用可能性を示す。

提案手法

各スケッチを複数の疎結合グラフ（ストローク内グラフ＝局所、ストローク外/全体グラフ＝時間的）として表現。
Multi-Graph Multi-Head Attentionサブレイヤと位置ごとのFeed-Forwardネットワークを備えたMulti-Graph Transformer（MGT）を導入。
座標、ペン状態フラグ、時系列位置エンコードを含むマルチモーダル入力からノード埋め込みを計算。
複数のグラフ間で情報をAggregationするMulti-Graph Multi-Head Attention機構を介し、分類のためにノード特徴を和として集約。

実験結果

リサーチクエスチョン

RQ1認識のためにスケッチを複数の疎グラフとして効果的に表現・処理できるか。
RQ2複数グラフ上で動作するTransformerは大規模データ上でRNN-およびCNNベースのスケッチ認識器を上回るか。
RQ3局所的（内ストローク）と全体的（時間的）グラフ構造の寄与は認識性能にどのように影響するか。
RQ4座標、ペン状態、時刻エンコードを含むマルチモーダル入力設計は性能にどう影響するか。
RQ5提案手法はリアルタイムのスケッチを用いた人間とコンピュータのインタラクションに対してスケーラブルで有益か。

主な発見

ネットワーク	構成	acc.@1	acc.@5	acc.@10	パラメータ
Bi-directional LSTM #1	4D Input, hat{d}=256,L=4,Dropout_LSTM=0.5,Dropout_MLP=0.15	0.6665	0.8820	0.9189	5,553,241
Bi-directional LSTM #2	4D Input, hat{d}=256,L=5,Dropout_LSTM=0.5,Dropout_MLP=0.15	0.6524	0.8697	0.9133	7,130,201
Bi-directional GRU	4D Input, hat{d}=256,L=5,Dropout_GRU=0.5,Dropout_MLP=0.15	0.6768	0.8854	0.9234	5,419,097
AlexNet	Standard architecture and configurations	0.6808	0.8847	0.9203	58,417,305
VGG-11	Standard architecture	0.6743	0.8814	0.9191	130,179,801
Inception V3	Standard	0.7422	0.9189	0.9437	25,315,474
ResNet-18	Standard	0.7031	0.9030	0.9351	11,353,497
ResNet-34	Standard	0.7009	0.9010	0.9347	21,461,657
DenseNet-201	Standard	0.7050	0.9013	0.9331	18,755,673
MobileNet V2	Standard	0.7310	0.9161	0.9429	2,665,817
SCNet	Standard	0.7123	0.9026	0.9351	24,222,489
ResNet-102+BSConv-U	Standard	0.7172	0.9037	0.9334	7,029,791
Vanilla Transformer	hat{d}=256,L=4,I=8,Fully-connected	0.5249	0.7802	0.8486	14,029,401
MGT (Base)	hat{d}=128,L=4,I=24,Graph set A^{1-hop},A^{2-hop},A^{global}	0.7070	0.9030	0.9351	10,096,601
MGT (Large)	hat{d}=256,L=4,I=24,Graph set A^{1-hop},A^{2-hop},A^{global}	0.7280	0.9106	0.9387	39,984,729

MGTはBaseで0.707 acc@1、Largeで0.728 acc@1を達成し、Google QuickDrawの345クラス分類でいくつかのRNNベースのベースラインを上回り、CNNの上限に近づく。
MGT LargeはトップCNN（Inception V3およびMobileNet V2）との差を縮小し、それぞれ0.7422と0.7310に対し0.728 acc@1、0.9106、0.9387を達成。
ドメイン特化のスケッチグラフ（A1-hop、A2-hop、A-global）を用いると、全結合や乱択グラフより大幅に性能が改善。
3グラフ構成（局所内ストロークと全体的時間グラフを組み合わせ）でアブレーションの中で最良の結果を得る。
GCN/GATベースラインと比べ、スケッチ特有グラフとマルチグラフ注意を組み合わせたMGTは明らかな精度向上を提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。