Skip to main content
QUICK REVIEW

[论文解读] Quran-MD: A Fine-Grained Multilingual Multimodal Dataset of the Quran

Muhammad Umar Salman, Mohammad Areeb Qazi|arXiv (Cornell University)|Jan 25, 2026
Speech Recognition and Synthesis被引用 0
一句话总结

Quran-MD 是一个统一的多模态古兰经数据集,连接经文与词级阿拉伯文本、英文翻译、音译和来自30位诵经者的对齐音频,便于跨模态分析及在NLP、ASR和 Tajweed 研究中的应用。

ABSTRACT

We present Quran MD, a comprehensive multimodal dataset of the Quran that integrates textual, linguistic, and audio dimensions at the verse and word levels. For each verse (ayah), the dataset provides its original Arabic text, English translation, and phonetic transliteration. To capture the rich oral tradition of Quranic recitation, we include verse-level audio from 32 distinct reciters, reflecting diverse recitation styles and dialectical nuances. At the word level, each token is paired with its corresponding Arabic script, English translation, transliteration, and an aligned audio recording, allowing fine-grained analysis of pronunciation, phonology, and semantic context. This dataset supports various applications, including natural language processing, speech recognition, text-to-speech synthesis, linguistic analysis, and digital Islamic studies. Bridging text and audio modalities across multiple reciters, this dataset provides a unique resource to advance computational approaches to Quranic recitation and study. Beyond enabling tasks such as ASR, tajweed detection, and Quranic TTS, it lays the foundation for multimodal embeddings, semantic retrieval, style transfer, and personalized tutoring systems that can support both research and community applications. The dataset is available at https://huggingface.co/datasets/Buraaq/quran-audio-text-dataset

研究动机与目标

  • 跨越多名诵经者将古兰经的文本、音译与音频模态连接起来。
  • 提供阿拉伯文本、翻译、音译与音频的经文与词级对齐。
  • 通过标准化的多模态资源,支持NLP、ASR、TTS和数字伊斯兰研究的发展。
  • 支持对古兰经诵读的语言学与音系学分析以及 tajweed 的研究。

提出的方法

  • 将来自三个公开来源的数据整理为分层的 JSON 模板。
  • 将来自30位诵经者的经文级音频与相应的经文文本与翻译相连。
  • 将阿拉伯文本、翻译、音译及对齐音频附加到每个词元。
  • 验证一致性,确保每个单词和经文都有对应音频。
  • 将数据组织为便于访问的经文级和词级信息的结构。
  • 在 Hugging Face 上发布数据集以实现标准化使用。
Quran-MD: A Fine-Grained Multilingual Multimodal Dataset of the Quran

实验结果

研究问题

  • RQ1如何在多种模态和多位诵经者之间对经文级和词级的 Qur’an 数据进行对齐?
  • RQ2多诵经者、多模态的 Qur’an 数据对NLP、ASR和 Tajweed任务的潜在益处是什么?
  • RQ3该数据集如何支持多模态嵌入、检索与 Qur’anic 学研究的辅导工具的发展?

主要发现

  • 数据集包含 114 章、6,236 节和约77.8千词。
  • 来自30位诵经者的经文级音频覆盖;约665小时的经文级音频和约22小时的词级音频。
  • 模态包括阿拉伯文、英文和音译文本,并将经文级和词级音频对齐到标记。
  • 数据结构支持经文级和词级分析,以及跨模态对齐以用于下游任务。
  • 该资源支持ASR、 Tajweed 检测、 Qur’anic TTS、风格迁移以及多模态语义检索。
Figure 1: Example of format of Surah 112 (Al-Ikhlas) in the Dataset.
Figure 1: Example of format of Surah 112 (Al-Ikhlas) in the Dataset.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。