[논문 리뷰] S1-MMAlign: A Large-Scale, Multi-Disciplinary Dataset for Scientific Figure-Text Understanding
S1-MMAlign을 소개한다. 15.5M 이미지-텍스트 데이터셋은 2.5M 개의 오픈 액세스 논문에서 얻었고, AI로 향상된 캡션으로 도표와 과학 텍스트 간 의미 격차를 좁힌다. 맥락 인식 재캡션을 통해 교차 모달 정합성 증가를 보여준다.
Multimodal learning has revolutionized general domain tasks, yet its application in scientific discovery is hindered by the profound semantic gap between complex scientific imagery and sparse textual descriptions. We present S1-MMAlign, a large-scale, multi-disciplinary multimodal dataset comprising over 15.5 million high-quality image-text pairs derived from 2.5 million open-access scientific papers. Spanning disciplines from physics and biology to engineering, the dataset captures diverse visual modalities including experimental setups, heatmaps, and microscopic imagery. To address the pervasive issue of weak alignment in raw scientific captions, we introduce an AI-ready semantic enhancement pipeline that utilizes the Qwen-VL multimodal large model series to recaption images by synthesizing context from paper abstracts and citation contexts. Technical validation demonstrates that this enhancement significantly improves data quality: SciBERT-based pseudo-perplexity metrics show reduced semantic ambiguity, while CLIP scores indicate an 18.21% improvement in image-text alignment. S1-MMAlign provides a foundational resource for advancing scientific reasoning and cross-modal understanding in the era of AI for Science. The dataset is publicly available at https://huggingface.co/datasets/ScienceOne-AI/S1-MMAlign.
연구 동기 및 목표
- 출판물에서 복잡한 과학 도표와 희박한 캡션 간의 의미적 격차를 해소한다.
- 과학적 추론 모델을 가능하게 하는 대규모 다학제 멀티모달 말뭉치를 제공한다.
- 밀도 높고 맥락에 근거한 도표 캡션을 생성하기 위한 AI 주도 의미 강화 파이프라인을 개발한다.
제안 방법
- arXiv, bioRxiv, medRxiv, ChemRxiv 및 Nature Communications의 데이터를 수집하여 이미지-텍스트 쌍을 수집한다.
- LaTeX/PDF 소스를 구문 분석하고 도해와 캡션을 추출하며 시각 자료를 PNG/JPG로 변환하는 전처리를 수행한다.
- SigLIP-2 인코더를 갖춘 Qwen3-VL을 사용한 의미 강화 파이프라인을 적용하여 맥락이 풍부한 캡션을 생성한다.
- 논문 제목, 초록, 지역 인용 맥락에서 지식을 주입하여 캡션을 과학적 서사에 근거시킨다.
- 확장성을 위해 vLLM과 PagedAttention을 사용한 8x H100 GPU 클러스터에서 대량 병렬 추론을 수행한다.
- 출력을 JSONL 메타데이터와 암호적 무결성 검증(Xet)이 있는 샤딩된 이미지 아카이브에 저장한다.
실험 결과
연구 질문
- RQ1과학 도표와 텍스트 간의 의미적 격차를 어떻게 줄여 멀티모달 이해를 향상시킬 수 있을까?
- RQ2맥락 인식 재캡션이 과학 영상의 교차 모달 정렬을 향상시키는가?
- RQ3대규모 과학 도표-텍스트 데이터셋에서 다루는 학문 분야 범위와 시각 모달리티는 무엇인가?
- RQ4의미적으로 강화된 말뭉치가 과학 멀티모달 모델의 허위 진술(hallucinations)을 줄일 수 있는가?
주요 결과
- 향상된 캡션은 원시 캡션에 비해 CLIP 이미지-텍스트 정합에서 평균 18.21% 향상을 보였다.
- 향상된 캡션은 더 높은 언어 품질을 산출한다(SciBERT pseudo-pPL이 좌측으로 이동하여 더 낮은 perplexity를 나타낸다).
- 캡션 길이가 267 ± 261에서 759 ± 251 문자로 증가하고 변동계수(CV ≈ 33%)가 감소한다.
- 데이터셋은 물리학, 컴퓨터 과학, 천문학, 생물학, 수학 및 공학에 걸쳐 있으며 물리학과 CS가 데이터의 절반 이상을 차지한다.
- 데이터 파이프라인은 대규모 도표-캡션 재캡션을 위해 vLLM을 사용하여 8x H100 GPU에서 확장 가능한 처리를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.