[論文レビュー] Quran-MD: A Fine-Grained Multilingual Multimodal Dataset of the Quran
Quran-MDは、聖クルアーンの句と語レベルのアラビア語テキスト、英語翻訳、音声転写、30人の朗読者の対をリンクする統合型マルチモーダルデータセットで、クロスモーダル分析およびNLP、ASR、 Tajweed研究の応用を可能にします。
We present Quran MD, a comprehensive multimodal dataset of the Quran that integrates textual, linguistic, and audio dimensions at the verse and word levels. For each verse (ayah), the dataset provides its original Arabic text, English translation, and phonetic transliteration. To capture the rich oral tradition of Quranic recitation, we include verse-level audio from 32 distinct reciters, reflecting diverse recitation styles and dialectical nuances. At the word level, each token is paired with its corresponding Arabic script, English translation, transliteration, and an aligned audio recording, allowing fine-grained analysis of pronunciation, phonology, and semantic context. This dataset supports various applications, including natural language processing, speech recognition, text-to-speech synthesis, linguistic analysis, and digital Islamic studies. Bridging text and audio modalities across multiple reciters, this dataset provides a unique resource to advance computational approaches to Quranic recitation and study. Beyond enabling tasks such as ASR, tajweed detection, and Quranic TTS, it lays the foundation for multimodal embeddings, semantic retrieval, style transfer, and personalized tutoring systems that can support both research and community applications. The dataset is available at https://huggingface.co/datasets/Buraaq/quran-audio-text-dataset
研究の動機と目的
- クルアーンのテキスト、転写、音声のモダリティを複数の朗読者に跨って橋渡しする。
- アラビア語テキスト、翻訳、転写、音声の句レベル・語レベルの整合を提供する。
- 標準化されたマルチモーダル資源を通じて、NLP、ASR、TTS、デジタルイスラム研究の研究を可能にする。
- クルアーン朗唱とtajweedの言語学的・音韻学的分析を支援する。
提案手法
- 三つの公開ソースのデータを階層的なJSONテンプレートにハーモナイズする。
- 30人の朗読者の句レベルの音声を対応する句テキストと翻訳にリンクする。
- 各トークンに語レベルのアラビア語テキスト、翻訳、転写、整合した音声を付与する。
- すべての語と句に対応する音声があることを検証して一貫性を確保する。
- 句レベル・語レベルの情報へシームレスにアクセスできるようデータを整理する。
- Hugging Faceでデータセットを公開し標準化された利用を可能にする。

実験結果
リサーチクエスチョン
- RQ1複数モダリティと朗読者を跨いで、句レベルおよび語レベルのクルアーンデータをどのように整合させられるか?
- RQ2多朗読者・マルチモーダルなクルアーンデータがNLP、ASR、Tajweedタスクにもたらす潜在的利点は?
- RQ3このデータセットは、マルチモーダル埋め込み、検索、学習ツールの開発をどのように支援できるか?
主な発見
| カテゴリ | 属性 | 統計/詳細 |
|---|---|---|
| コーパス規模 | Surahs | 114 |
| コーパス規模 | Ayahs | 6,236 |
| コーパス規模 | Words | ~77.8k |
| 音声 | 朗読者 | 30(多様なスタイル) |
| Verse-level Audio | 量 | ~665 hours |
| Word-level Audio | 量 | ~22 hours |
| モダリティ | Text | Arabic, English, Transliteration |
| モダリティ | Audio | Verse- and Word-level recordings |
- データセットは114 surahs、6,236 ayahs、およそ77.8k語を含む。
- 句レベルの音声は30人の朗読者から提供され、句レベルの音声約665時間、語レベルの音声約22時間をカバー。
- モダリティにはアラビア語、英語、転写のテキストと、句レベル・語レベルの音声がトークンに整合されている。
- データ構造は句レベル・語レベルの分析とクロスモーダル整合をサポートし、下流タスクに適用可能。
- このリソースはASR、Tajweed検出、クルアーンTTS、スタイル転送、マルチモーダル意味検索を可能にする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。