[論文レビュー] FigureQA: An Annotated Figure Dataset for Visual Reasoning
FigureQA は、100k の figure 画像に基づく 100万超の QA ペアを含む合成ビジュアル推論コーパスで、補助タスクのバウンディングボックスと数値データも提供。ベースラインは関係推論が最も強力な性能を発揮するが、人間レベルにはまだ及ばない。
We introduce FigureQA, a visual reasoning corpus of over one million question-answer pairs grounded in over 100,000 images. The images are synthetic, scientific-style figures from five classes: line plots, dot-line plots, vertical and horizontal bar graphs, and pie charts. We formulate our reasoning task by generating questions from 15 templates; questions concern various relationships between plot elements and examine characteristics like the maximum, the minimum, area-under-the-curve, smoothness, and intersection. To resolve, such questions often require reference to multiple plot elements and synthesis of information distributed spatially throughout a figure. To facilitate the training of machine learning systems, the corpus also includes side data that can be used to formulate auxiliary objectives. In particular, we provide the numerical data used to generate each figure as well as bounding-box annotations for all plot elements. We study the proposed visual reasoning task by training several models, including the recently proposed Relation Network as a strong baseline. Preliminary results indicate that the task poses a significant machine learning challenge. We envision FigureQA as a first step towards developing models that can intuitively recognize patterns from visual representations of data.
研究の動機と目的
- 描画データを基にした視覚的質問の大規模で注釈付きデータセットを作成し、プロットされたデータの推論を研究する。
- 補助的監督を可能にするために、すべての図要素の真の数値データと境界ボックスを提供する。
- 図ベースの質問に対して、関係推論を含む基礎的なニューラルモデルを評価する。
- 合成生成を通じてテンプレート、データタイプ、タスクの複雑さを拡張し、カリキュラム型の拡張を可能にする。
提案手法
- 5種類の合成図を生成(縦棒/横棒グラフ、折れ線グラフ、点と線、パイチャート)をサンプル数値データから作成。
- 最大値・最小値、曲線下面積、滑らかさ、要素間の関係を扱う15のバイナリ質問テンプレートを作成。
- テンプレートと図全体で正答/否定をバランス良く配置してバイアスを避ける。
- 各図に全要素の境界ボックスを注釈し、基礎データと色データを提供する。
- Bokeh を用いて図をレンダリングし境界ボックスを出力;注釈をエクスポートするようバックエンドを変更。
- 4つのベースラインを評価:テキストだけの LSTM、学習済み視覚特徴を持つ CNN+LSTM、VGG-16 特徴を持つ CNN+LSTM、関係推論のための Relational Network (RN)。)
実験結果
リサーチクエスチョン
- RQ1ニューラルモデルは画像と質問のみの入力で、合成図データに対して正確な視覚的推論を実行できるか。
- RQ2関係推論(RN)は図ベースの質問で標準の CNN+LSTM ベースラインより優れているか。
- RQ3モデルは合成図の読解タスクで人間の性能にどれだけ近づけるか。
- RQ4色の交互配置スキームがモデルの性能と偏り耐性に与える影響は何か。
主な発見
| モデル | 検証精度(%) | テスト精度(%) |
|---|---|---|
| テキストのみ | 50.01 | 50.01 |
| CNN+LSTM | 56.16 | 56.00 |
| CNN+LSTM の VGG-16 特徴 | 52.31 | 52.47 |
| RN | 72.54 | 72.40 |
- RN は FigureQA テストセットで CNN+LSTM ベースラインを大幅に上回る。
- RN は 色を交互にした場合、検証72.54%、テスト72.40% の精度を達成し、非交互設定では76.52% 。
- 同じサブセットで人間のアノテータは91.21%を達成しており、人間レベルの推論との差が残っていることを浮き彫りにしている。
- テキストのみおよび CNN+LSTM のベースラインは RN に遅れ、本タスクにおける関係推論の重要性を示している。
- データセットには 100k の訓練図(1.3M 問)と 20k の検証/テスト図(各約25万問)が含まれる。
- コーパスは補助監督と分析を支援する基礎データと境界ボックスを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。