QUICK REVIEW

[論文レビュー] SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs

Shengzhi Li, Nima Tajbakhsh|arXiv (Cornell University)|Aug 7, 2023

Topic Modeling被引用数 26

ひとこと要約

SciGraphQA は Palm-2 を用いて 290k の ArXiv 論文から生成された、現実世界の科学グラフに関する 295k のオープンボキャブラリ・マルチターン Q&A データセットであり、ゼロショットおよびファインチューニング済みの MLLM 評価を可能にする。

ABSTRACT

In this work, we present SciGraphQA, a synthetic multi-turn question-answer dataset related to academic graphs. SciGraphQA is 13 times larger than ChartVQA, the previously largest chart-visual question-answering dataset. It is also the largest open-sourced chart VQA dataset with non-synthetic charts. To build our dataset, we selected 290,000 Computer Science or Machine Learning ArXiv papers published between 2010 and 2020, and then used Palm-2 to generate 295K samples of open-vocabulary multi-turn question-answering dialogues about the graphs. As context, we provided the text-only Palm-2 with paper title, abstract, paragraph mentioning the graph, and rich text contextual data from the graph itself, obtaining dialogues with an average 2.23 question-answer turns for each graph. We asked GPT-4 to assess the matching quality of our question-answer turns given the paper's context, obtaining an average rating of 8.7/10 on our 3K test set. We evaluated the 0-shot capability of the most popular MLLM models such as LLaVa, mPLUGowl, BLIP-2, and openFlamingo's on our dataset, finding LLaVA-13B being the most performant with a CIDEr score of 0.08. We further enriched the question prompts for LLAVA by including the serialized data tables extracted from the graphs using the DePlot model, boosting LLaVA's 0-shot CIDEr to 0.15. To verify the validity of our dataset, we also fine-tuned LLaVa using our dataset, reaching a substantially higher CIDEr score of 0.26. We anticipate further accuracy improvement by including segmentation mask tokens and leveraging larger LLM backbones coupled with emergent prompting techniques. Our code and data are open-sourced.

研究の動機と目的

科学文献の現実世界の利用を反映する、科学グラフに焦点を当てたマルチターン Q&A ベンチマークの規模と多様性を拡大。
自然な対話を生成するための豊富な文脈（タイトル、要約、キャプション、図を参照する段落）を提供。
ゼロショットおよびファインチューニング済みのマルチモーダル LLM のグラフ理解タスク評価を可能にする。
グラフ由来データ表を用いたプロンプト拡張がモデル性能を向上させるか評価する。
科学分野における MLLMs の指示学習・事前トレーニングを促進するオープンで大規模なデータセットを提供。

提案手法

SciGraphQA を SciCap+ に図キャプション、OCR テキスト、タイトル、要約、および図を参照する最初の段落を追加して構築。
Palm-2 を用いて、in-context の例を含む 295k の QA 対話を生成（GPT-4 で検証済みプロンプト）。
キーワードベースのヒューリスティックを用いて図に関連する質問をフィルタリングし、平均 2.23 回／図の高品質なターン 295k を得る。
CIDEr、BLEU-4、ROUGE を用いて dataset のゼロショット性能を評価するため、人気の MLLMs（例：LLaVA、mPLUGowl、BLIP-2、OpenFlamingo）を評価。
DePlot で抽出されたデータ表を用いてプロンプトを拡張し、ゼロショット性能を向上。
SciGraphQA でのファインチューニング（LoRA アダプタ付きの LLaVA-13B および SciGraphQA ベースラインに DePlot 拡張サブセットを適用）で、獲得を評価。

Figure 1: Illustration of multi-turn dialogue generation process. For higher quality dialogues, we use comprehensive textual context together with in-context learning when prompting Palm-2.

実験結果

リサーチクエスチョン

RQ1現実世界の科学グラフに関する質問を、ゼロショット設定で現在のマルチモーダル大規模言語モデル（MLLM）はどれだけ理解し、回答できるか。
RQ2DePlot 抽出データ表を用いた構造化グラフデータでプロンプトを拡張することが、グラフの VQA スタイルの指標を改善するか。
RQ3SciGraphQA でのファインチューニングとデータセット規模が、グラフベースの QA のモデル性能にどのような影響を与えるか。
RQ4SciGraphQA ベースラインモデル（SciGraphQA-baseline の LLaVA-13B がゼロショット基準よりも CIDEr/BLEU-4/ROUGE で上回るか）。
RQ5科学的グラフ VQA の性能に影響を与える実践的な考慮事項（訓練設定、アダプタ、データ拡張）とは何か。

主な発見

SciGraphQA は ChartVQA の 13 倍の規模であり、現実世界のグラフを含む最大のオープンソースのチャート VQA データセット（295K QA ペア）である。
3K テストサブセットに対する GPT-4 の評価は、文脈に合致する QA ターンの一致度が 8.7/10 の平均を示し、高品質な対話生成とフィルタリングを示唆。
ゼロショット評価ではバックボーンの規模とともにモデル性能が向上し、LLaVA-13B は試験されたモデルの中で top の性能を達成（CIDEr ~0.08、BLEU-4 ~0.07、ROUGE ~0.23、拡張なし）。
DePlot 抽出データ表を用いたプロンプト拡張は CIDEr を LLaVA-13B の 0.08 から 0.153（DePlot+LLaVa-13B）へ、さらに SciGraphQA-baseline ファインチューニングで 0.268 CIDEr に、ROUGE も 0.31 へ改善。
SciGraphQA のファインチューニング（SciGraphQA-baseline）は CIDEr を 0.268、ROUGE を 0.31 に引き上げ、ゼロショット基準を大きく上回る。
データセット規模はファインチューニング性能と正の相関を示し、初期半分のデータで最も大きな利得を得られ、拡張と大規模バックボーンで追加の利得が得られる。

Figure 2: (left) distribution of the number of question-answer turns in our SciGraphQA dataset. (right) distribution of GPT-4 ratings (0–10) when GPT-4 was used as a judge to measure the matching of questions and answers from a 3k subset of the the SciGraphQA dataset.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。