QUICK REVIEW

[논문 리뷰] SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs

Shengzhi Li, Nima Tajbakhsh|arXiv (Cornell University)|2023. 08. 07.

Topic Modeling인용 수 26

한 줄 요약

SciGraphQA는 Palm-2를 사용하여 290k 아카이브 논문에서 생성된 실제 세계의 과학 그래프에 관한 295k개의 오픈-보카빌러리 다중 턴 Q&A 데이터셋을 도입하며, 제로샷 및 미세조정된 MLLM 평가를 가능하게 한다.

ABSTRACT

In this work, we present SciGraphQA, a synthetic multi-turn question-answer dataset related to academic graphs. SciGraphQA is 13 times larger than ChartVQA, the previously largest chart-visual question-answering dataset. It is also the largest open-sourced chart VQA dataset with non-synthetic charts. To build our dataset, we selected 290,000 Computer Science or Machine Learning ArXiv papers published between 2010 and 2020, and then used Palm-2 to generate 295K samples of open-vocabulary multi-turn question-answering dialogues about the graphs. As context, we provided the text-only Palm-2 with paper title, abstract, paragraph mentioning the graph, and rich text contextual data from the graph itself, obtaining dialogues with an average 2.23 question-answer turns for each graph. We asked GPT-4 to assess the matching quality of our question-answer turns given the paper's context, obtaining an average rating of 8.7/10 on our 3K test set. We evaluated the 0-shot capability of the most popular MLLM models such as LLaVa, mPLUGowl, BLIP-2, and openFlamingo's on our dataset, finding LLaVA-13B being the most performant with a CIDEr score of 0.08. We further enriched the question prompts for LLAVA by including the serialized data tables extracted from the graphs using the DePlot model, boosting LLaVA's 0-shot CIDEr to 0.15. To verify the validity of our dataset, we also fine-tuned LLaVa using our dataset, reaching a substantially higher CIDEr score of 0.26. We anticipate further accuracy improvement by including segmentation mask tokens and leveraging larger LLM backbones coupled with emergent prompting techniques. Our code and data are open-sourced.

연구 동기 및 목표

과학 그래프에 초점을 맞춘 다중 턴 Q&A 벤치마크를 확장하고 다양화하여 과학 논문에서의 실제 사용을 반영한다.
自然스러운 대화를 생성하기 위해 제목, 초록, 캡션, 그리고 그림을 참조하는 단락과 같은 풍부한 맥락을 제공한다.
제로샷 및 미세조정된 다중모달 LLM의 그래프 이해 과제 평가를 가능하게 한다.
그래프에서 파생된 데이터 표를 통한 프롬프트 보강이 모델 성능을 향상시키는지 평가한다.
과학 분야의 MLLMs를 위한 지시-튜닝 및 사전 학습을 촉진하기 위한 개방적이고 대규모 데이터셋을 제공한다.

제안 방법

SciGraphQA를 SciCap+를 확장하여 그림 캡션, OCR 텍스트, 제목, 초록, 그리고 그림을 참조하는 첫 단락들을 포함하도록 구성한다.
GPT-4로 검증된 프롬프트를 사용한 컨텍스트 예시와 함께 Palm-2를 이용해 295k개의 QA 대화를 생성한다.
키워드 기반의 휴리스틱을 사용하여 그래프 관련 질문만을 필터링하여 295k개의 고품질 턴(그래프당 평균 2.23 턴)을 얻는다.
데이터셋에서 CIDEr, BLEU-4, ROUGE를 사용하여 벤치마크의 제로샷 성능을 LLaVA, mPLUGowl, BLIP-2, OpenFlamingo 등과 비교 평가한다.
DePlot에서 추출한 데이터 표로 프롬프트를 보강하여 제로샷 성능을 향상시킨다.
SciGraphQA 및 DePlot 보강 부분 데이터에 대해 LLaVA-13B를 파인튜닝하고 이득을 평가한다.

Figure 1: Illustration of multi-turn dialogue generation process. For higher quality dialogues, we use comprehensive textual context together with in-context learning when prompting Palm-2.

실험 결과

연구 질문

RQ1현실 세계의 과학 그래프에 대해 제로샷 설정에서 다중모달 대형 언어 모델(MLLM)이 얼마나 잘 이해하고 질문에 답하는가?
RQ2DePlot에서 추출된 표를 통해 구조화된 그래프 데이터로 프롬프트를 보강하는 것이 그래프에 대한 VQA 스타일 지표를 개선하는가?
RQ3SciGraphQA에 대한 파인튜닝과 데이터셋 크기가 그래프 기반 QA에서 모델 성능에 미치는 영향은 무엇인가?
RQ4SciGraphQA-기준의 파인튜닝 모델(SciGraphQA-baseline)이 제로샷 기준선보다 CIDEr/BLEU-4/ROUGE에서 얼마나 우수한가?
RQ5과학 그래프 VQA 성능에 영향을 주는 실용적 고려사항(학습 설정, 어댑터, 데이터 보강)에는 어떤 것이 있는가?

주요 결과

SciGraphQA는 ChartVQA의 13배 크기이며 실제 그래프를 포함하는 가장 큰 오픈 소스 차트 VQA 데이터셋으로, 295K QA 쌍을 보유한다.
3K 테스트 부분에 대한 GPT-4 평가 결과, 맥락과 일치하는 QA 턴의 평균 점수가 8.7/10으로 높은 품질의 대화 생성 및 필터링을 시사한다.
제로샷 평가에서 모델의 성능은 백본 크기에 따라 달라지며, LLaVA-13B가 테스트된 모델 중 최상위 성능을 달성한다(CIDEr ~0.08, BLEU-4 ~0.07, ROUGE ~0.23) 보강 없이도.
DePlot에서 추출한 데이터 표로 프롬프트를 보강하면 CIDEr가 0.08(LLaVA-13B)에서 0.153(DePlot+LLaVa-13B)로 향상되고 SciGraphQA-baseline으로 파인튜닝하면 0.268 CIDEr로 더 향상되며 0.31 ROUGE까지 상승한다.
SciGraphQA를 파인튜닝한 모델(SciGraphQA-baseline)은 제로샷 기준선을 크게 능가하며 CIDEr 0.268 및 ROUGE 0.31의 성능을 달성한다.
데이터셋 크기는 파인튜닝 성능과 양의 상관관계가 있으며, 초기 데이터의 절반 정도를 사용하는 것이 최고의 이득을 주고, 데이터 보강 및 더 큰 백본으로 추가 이득이 생긴다.

Figure 2: (left) distribution of the number of question-answer turns in our SciGraphQA dataset. (right) distribution of GPT-4 ratings (0–10) when GPT-4 was used as a judge to measure the matching of questions and answers from a 3k subset of the the SciGraphQA dataset.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.