[論文レビュー] S1-MMAlign: A Large-Scale, Multi-Disciplinary Dataset for Scientific Figure-Text Understanding
S1-MMAlignを紹介する。2.5M件のオープンアクセス論文から作成された15.5Mの画像-テキストデータセットで、AIで強化されたキャプションにより図と科学テキストの意味的ギャップを埋める。文脈認識リキャプションを用いたクロスモーダル整合性の改善を実証。
Multimodal learning has revolutionized general domain tasks, yet its application in scientific discovery is hindered by the profound semantic gap between complex scientific imagery and sparse textual descriptions. We present S1-MMAlign, a large-scale, multi-disciplinary multimodal dataset comprising over 15.5 million high-quality image-text pairs derived from 2.5 million open-access scientific papers. Spanning disciplines from physics and biology to engineering, the dataset captures diverse visual modalities including experimental setups, heatmaps, and microscopic imagery. To address the pervasive issue of weak alignment in raw scientific captions, we introduce an AI-ready semantic enhancement pipeline that utilizes the Qwen-VL multimodal large model series to recaption images by synthesizing context from paper abstracts and citation contexts. Technical validation demonstrates that this enhancement significantly improves data quality: SciBERT-based pseudo-perplexity metrics show reduced semantic ambiguity, while CLIP scores indicate an 18.21% improvement in image-text alignment. S1-MMAlign provides a foundational resource for advancing scientific reasoning and cross-modal understanding in the era of AI for Science. The dataset is publicly available at https://huggingface.co/datasets/ScienceOne-AI/S1-MMAlign.
研究の動機と目的
- 複雑な科学図と公開論文の希薄なキャプションの意味的ギャップに対処する。
- 科学的推論モデルを可能にする大規模で学際的なマルチモーダルコーパスを提供する。
- AI駆動の意味的強化パイプラインを開発し、密な文脈に根ざした図のキャプションを生成する。
提案手法
- arXiv、bioRxiv、medRxiv、ChemRxiv、Nature Communications から画像-テキストのペアを収集するデータを取り込む。
- LaTeX/PDFソースを解析し、図とキャプションを抽出し、ビジュアルをPNG/JPGに変換して前処理する。
- SigLIP-2エンコーダを用いたQwen3-VLによる意味的強化パイプラインを適用して文脈豊かなキャプションを生成する。
- 論文のタイトル、要約、ローカル引用コンテキストから知識を注入して科学的語りにキャプションを根ざす。
- スケーラビリティのため8x H100 GPUクラスタ上で高スループットの並列推論を実行し、vLLMとPagedAttentionを用いる。
- 出力をJSONLメタデータと暗号的整合性検証(Xet)を伴うシャーディング済み画像アーカイブに格納する。
実験結果
リサーチクエスチョン
- RQ1科学図とテキストの意味的ギャップをどう埋めてマルチモーダル理解を向上させるか。
- RQ2文脈認識リキャプションは科学画像のクロスモーダル整合性を改善するか。
- RQ3大規模な科学図-テキストデータセットにおける学問分野のカバー範囲と視覚モダリティは。
- RQ4意味的に強化されたコーパスは科学的マルチモーダルモデルの幻覚を減らせるか。
主な発見
- 強化されたキャプションは生のキャプションに比べてCLIPの画像-テキスト整合性を平均18.21%向上させる。
- 強化キャプションは語彙品質が高くなる(SciBERTのpseudo-pPLが左にシフト、困難度の低下を示す)。
- キャプション長は267±261文字から759±251文字へ増加し、変動係数CVが約33%に低下。
- データセットは物理学、コンピュータサイエンス、天文学、生物学、数学、工学を網羅し、物理とCSが全データの過半を占める。
- データパイプラインは8x H100 GPU上でvLLMを用いた大規模図キャプションのリキャプショニングを実現し、スケーラブルな処理を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。