Skip to main content
QUICK REVIEW

[論文レビュー] Chitrakshara: A Large Multilingual Multimodal Dataset for Indian languages

Saiqa Khan, Ali Faraz|arXiv (Cornell University)|Mar 6, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

Chitraksharaデータセットシリーズを導入:Chitrakshara-IL(193M画像、30Bトークン、50M文書)とChitrakshara-Cap(44M画像-テキストペア、733Mトークン)、包括的VLMsのための詳細なデータパイプラインと分析。

ABSTRACT

Multimodal research has predominantly focused on single-image reasoning, with limited exploration of multi-image scenarios. Recent models have sought to enhance multi-image understanding through large-scale pretraining on interleaved image-text datasets. However, most Vision-Language Models (VLMs) are trained primarily on English datasets, leading to inadequate representation of Indian languages. To address this gap, we introduce the Chitrakshara dataset series, covering 11 Indian languages sourced from Common Crawl. It comprises (1) Chitrakshara-IL, a large-scale interleaved pretraining dataset with 193M images, 30B text tokens, and 50M multilingual documents, and (2) Chitrakshara-Cap, which includes 44M image-text pairs with 733M tokens. This paper details the data collection pipeline, including curation, filtering, and processing methodologies. Additionally, we present a comprehensive quality and diversity analysis to assess the dataset's representativeness across Indic languages and its potential for developing more culturally inclusive VLMs.

研究の動機と目的

  • マルチモーダルデータセットにおけるインド語の過小表現に対処する。
  • Indic言語向けに文化的に包摂的なVLMを訓練するための大規模な交互データとキャプショニングデータを提供する。
  • インドの言語に適した堅牢なWeb出典データ収集・フィルタリングパイプラインを概説する。
  • 品質とカバレッジを確保するための言語分布、ドメイン表現、モダリティ多様性を評価する。

提案手法

  • 2013–2023をカバーする95のCommon Crawlダンプを収集し、Indic言語カバレージを最大化する。
  • 言語検出器(FastText LID)とヒューリスティクスを用いて文書をフィルタリング・重複除去する。
  • レイアウトの意味を保持しつつ、 cleaned HTML文書を交互モ multimodalシーケンスに変換する。
  • Chitrakshara-ILを交互データとして、Chitrakshara-Capを画像代替テキストペアとして作成する。
  • 言語、ドメイン、モダリティ全体でデータセットの品質と多様性を評価する。
Figure 1 : Chitrakshara dataset creation pipeline
Figure 1 : Chitrakshara dataset creation pipeline

実験結果

リサーチクエスチョン

  • RQ1ウェブソースから派生した交互およびキャプション付きマルチモーダルデータにおけるIndic言語の代表性と多様性はどの程度か。
  • RQ2大規模でインドに焦点を当てた交互データセットが、英語中心のデータセットと比べてインド語のビジョン・言語モデリングを改善できるか。
  • RQ311言語にわたるChitrakshara-ILとChitrakshara-Capの実用的な特性(言語分布、文書、画像)はどうなるか。

主な発見

  • Chitrakshara-ILは約1億9300万枚の画像、300億語のテキストトークン、5000万の多言語文書をCommon Crawlから取得して構成される。
  • Chitrakshara-Capは4400万の画像-テキストペアと7億3300万のトークンを含む。
  • Chitraksharaは、言語ごとの文書・トークン・画像数の点で、英語寄りの多言語交互データセットよりも複数のインド語において優れた性能を示す。
  • データセットは広範なドメインカバレッジを持ち、ニュースとエンターテインメントの内容が優勢で、11言語にわたる多様な言語表現を示す。
Figure 2 : Illustration of multimodal document extraction from the web. On the left, Chitrakshara-Cap includes image alt-text pairs, while on the right, Chitrakshara-IL retains the interleaved structure (truncated) of text & images from the source Hindi document.
Figure 2 : Illustration of multimodal document extraction from the web. On the left, Chitrakshara-Cap includes image alt-text pairs, while on the right, Chitrakshara-IL retains the interleaved structure (truncated) of text & images from the source Hindi document.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。