Skip to main content
QUICK REVIEW

[論文レビュー] ARCADE: A City-Scale Corpus for Fine-Grained Arabic Dialect Tagging

Omer Nacar, Serry Sibaee|arXiv (Cornell University)|Jan 5, 2026
Linguistic Variation and Morphology被引用数 0
ひとこと要約

ARCADEはラジオストリームから収集した市レベルの細粒度アラビア語方言スピーチコーパスで、感情・スピーチタイプ・方言カテゴリ・品質などの豊富なメタデータと手動注釈が含まれます。細粒度の方言帰属とマルチタスク分析を可能にし、19か国・58市をカバーします。

ABSTRACT

The Arabic language is characterized by a rich tapestry of regional dialects that differ substantially in phonetics and lexicon, reflecting the geographic and cultural diversity of its speakers. Despite the availability of many multi-dialect datasets, mapping speech to fine-grained dialect sources, such as cities, remains underexplored. We present ARCADE (Arabic Radio Corpus for Audio Dialect Evaluation), the first Arabic speech dataset designed explicitly with city-level dialect granularity. The corpus comprises Arabic radio speech collected from streaming services across the Arab world. Our data pipeline captures 30-second segments from verified radio streams, encompassing both Modern Standard Arabic (MSA) and diverse dialectal speech. To ensure reliability, each clip was annotated by one to three native Arabic reviewers who assigned rich metadata, including emotion, speech type, dialect category, and a validity flag for dialect identification tasks. The resulting corpus comprises 6,907 annotations and 3,790 unique audio segments spanning 58 cities across 19 countries. These fine-grained annotations enable robust multi-task learning, serving as a benchmark for city-level dialect tagging. We detail the data collection methodology, assess audio quality, and provide a comprehensive analysis of label distributions. The dataset is available on: https://huggingface.co/datasets/riotu-lab/ARCADE-full

研究の動機と目的

  • 国や地域レベルの分類を超えた細粒度・市レベルの方言ラベリングを動機づける。
  • アラブ都市ストリームからのラジオ音声を収集するデータ収集パイプラインを説明する。
  • 豊富で手動検証済みの注釈(感情、スピーチタイプ、方言カテゴリ、品質)を提供し、 robust なマルチタスク学習を促進する。
  • ラベル分布、音声品質、地理的カバー率を分析してモデリング意思決定に情報を提供する。
  • 再利用可能なプロトコルとオープンデータを提供し、市レベルの方言帰属研究を促進する。

提案手法

  • Arab city streams から30秒のモノローグセグメントを収集するラジオストリーム録音パイプラインを設計・実装する。
  • 各クリップに感情、スピーチタイプ、方言カテゴリ、保持/スキップ決定、注釈者の信頼度を、カスタムGradioベースのインターフェースを用いて注釈する。
  • 地理的粒度を確保するために19か国・58市から録音を行い、各市で最低10件の保持録音を課す。
  • 再現性のため、国名・市名・MSA/方言・注釈者・タイムスタンプ・持続時間などのメタデータフィールドを提供する。
  • 注釈間の一致度と音響品質指標(SNR、無音比、ダイナミックレンジ、スペクトルセントroid)を用いて技術的検証を行う。
  • 完全なデータセットをCC BY 4.0の下でHugging Face Datasets に提供し、非商用の学術利用を許可する。

実験結果

リサーチクエスチョン

  • RQ1ラジオ由来のアラビア語スピーチから市レベルの方言ラベリングを信頼性高く実現できるか?
  • RQ2アラブ世界の細粒度市ごとに方言対MSA、感情、スピーチタイプの分布はどうなるか?
  • RQ3音声品質は地理的にどのように変動し、方言識別モデルにどのような影響を与えるか?
  • RQ4保持/スキップ決定、方言分類、感情に関する手動注釈はラジオスピーチコーパスでどれくらい信頼できるか?
  • RQ5ARCADE は方言カテゴリ、感情、サブ地域起源を同時にモデリングするマルチタスク学習を実現できるか?

主な発見

  • データセットは6,907件の注釈と58市・19か国の3,790件のユニーク音声クリップを含む。
  • manual review 後、方言識別のためにクリップの65.7%を保持;34.3%はコーラン朗読、音楽、またはクロストークのためスキップ。
  • 方言がクリップの41%、MSAが21%、混在18%、適用不可が20%を占める。
  • 感情注釈は中立が支配的で87.8%、その他の感情は過少。
  • 注釈者間の一致はKeep/Skipで生データ合意91.76%、コーエンのカッパ0.507;MSA/方言83.16%、0.310;感情90.53%、0.179;タイプ87.71%、0.586。
  • 保持サンプルは音質が高く(平均SNR 15.25 dB)、スキップサンプルより高品質。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。