QUICK REVIEW

[論文レビュー] Benchmarking Automatic Speech Recognition for Indian Languages in Agricultural Contexts

M. S. Chandrashekar, Vineet Singh|arXiv (Cornell University)|Jan 31, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

論文はヒンディー語、テルグ語、オディア語に跨る農業分野で10のASRシステムをベンチマークし、農業ドメイン特有の指標（AWWERとLLMベースの有用性）を導入。農業ASRの基準値を確立するため、Farmer.Chatの10,864–10,934語録音コーパスにおけるダイアライゼーション、音声品質、エラーパターンを分析。

ABSTRACT

The digitization of agricultural advisory services in India requires robust Automatic Speech Recognition (ASR) systems capable of accurately transcribing domain-specific terminology in multiple Indian languages. This paper presents a benchmarking framework for evaluating ASR performance in agricultural contexts across Hindi, Telugu, and Odia languages. We introduce evaluation metrics including Agriculture Weighted Word Error Rate (AWWER) and domain-specific utility scoring to complement traditional metrics. Our evaluation of 10,934 audio recordings, each transcribed by up to 10 ASR models, reveals performance variations across languages and models, with Hindi achieving the best overall performance (WER: 16.2%) while Odia presents the greatest challenges (best WER: 35.1%, achieved only with speaker diarization). We characterize audio quality challenges inherent to real-world agricultural field recordings and demonstrate that speaker diarization with best-speaker selection can substantially reduce WER for multi-speaker recordings (upto 66% depending on the proportion of multi-speaker audio). We identify recurring error patterns in agricultural terminology and provide practical recommendations for improving ASR systems in low-resource agricultural domains. The study establishes baseline benchmarks for future agricultural ASR development.

研究の動機と目的

インドの農業向けASRを堅牢にする動機づけとして、ドメイン固有の用語と多言語カバレッジに対応。
伝統的なWER/CER/MERに加え、ドメイン対応の評価指標（AWWERとLLMベースの有用性）を提案。
ヒンディー語、テルグ語、オディア語の10モデルを実世界の現場記録でベンチマーク。
転写精度と話者ダイアライゼーションが音声品質に与える影響を特徴づけ。
将来の研究のための実用的なガイドラインとオープンな農業ASRベンチマークデータセットを提供。

提案手法

Real-world agricultural audio dataset (Farmer.Chat) を収集、ヒンディー語、テルグ語、オディア語の計10,934録音を含む。
話者ダイアライゼーションの有無を問わず、オープンソース・商用・学術の10ASRモデルを評価。
言語特異の農業語彙を用いてドメイン語を重み付けする Agriculture Weighted Word Error Rate (AWWER) を導入。
GPT-4oベースのLLM有用性スコアリングを用いて助言アウトカムの転写有用性を評価。
音声品質の特徴とマルチスピーカー効果を分析し、ダイアライゼーションの利点を定量化。
農業用語の再発混乱パターンとエラーハラスの影響を特定するドメイン分析を実施。

Figure 1 : Distribution of audio issue types across languages. Background talk dominates all three languages, reflecting real-world agricultural consultation settings.

実験結果

リサーチクエスチョン

RQ1農業コンテキストで標準指標（WER/CER/MER）とドメイン対応指標（AWWER）を用いた多様なASRシステムの性能はどうか。
RQ2マルチスピーカー農業収録における話者ダイアライゼーション（最適話者選択）は転写精度にどのように影響するか。
RQ3一般的な農業用語エラーパターンは何で、ドメイン特有の有用性にどう影響するか。
RQ4ドメイン対応指標とLLMベースの有用性スコアは、このドメインで従来のWER以上の洞察を提供できるか。
RQ5低リソースなインド語での農業ASRの実装に向けた実用的ガイドラインは何か。

主な発見

ヒンディー語は全体的なWERが最も良く、16.2%（最良のWERはGoogle STT）。
オディア語はWERの課題が最も大きく、最良WERは35.1%で、話者ダイアライゼーション（Azure Diarize Best Speaker）を用いた場合。
Best-speaker選択による話者ダイアライゼーションはマルチスピーカー収録でWERを最大66%低減可能。
AWWERのランキングはWERのランキングと一致せず、農業用語を保持するモデル（例：Gemini 2.5 Pro Best Speaker）はAWWERで高評価になることが多い。
AWWER分析では全言語で高重み語を含むエラーが34%、中間重み語が28%、一般語彙が38%に影響。
LLMベースの有用性スコアは言語間で異なる有用性を示し、テルグ語はヒンディー語より高い知覚的有用性を示す一方、WERは高い。

Figure 2 : Full transcript WER vs best-speaker WER across models and languages. Models with higher multi-speaker percentages show larger improvements from best-speaker selection.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。