Skip to main content
QUICK REVIEW

[論文レビュー] Multimodal In-context Learning for ASR of Low-resource Languages

Zhaolin Li, Jan Niehues|arXiv (Cornell University)|Jan 9, 2026
Speech Recognition and Synthesis被引用数 0
ひとこと要約

本論文は、話し言葉の大規模言語モデル(speech LLMs)と多模態文脈内学習(MICL)が、ASRのための unseen 低リソース言語を学習できることを示し、MICLに基づく仮説選択システムを提案。これにより、ターゲット言語データなしで認識性能を向上させる。

ABSTRACT

Automatic speech recognition (ASR) still covers only a small fraction of the world's languages, mainly due to supervised data scarcity. In-context learning (ICL) with large language models (LLMs) addresses this problem, but prior work largely focuses on high-resource languages covered during training and text-only settings. This paper investigates whether speech LLMs can learn unseen languages with multimodal ICL (MICL), and how this learning can be used to improve ASR. We conduct experiments with two speech LLMs, Phi-4 and Qwen3-Omni, on three diverse endangered languages. Firstly, we find that MICL is effective for unseen languages, leveraging both speech and text modalities. We further show that cross-lingual transfer learning improves MICL efficiency on target languages without training on them. Moreover, we analyze attention patterns to interpret MICL mechanisms, and we observe layer-dependent preferences between audio and text context, with an overall bias towards text. Finally, we show that prompt-based ASR with speech LLMs performs poorly on unseen languages, motivating a simple ASR system that combines a stronger acoustic model with a speech LLM via MICL-based selection of acoustic hypotheses. Results show that MICL consistently improves ASR performance, and that cross-lingual transfer learning matches or outperforms corpus-trained language models without using target-language data. Our code is publicly available.

研究の動機と目的

  • ASRにおけるデータ不足課題を、数千の不代表言語に対して動機づけし対処する。
  • 音声LLMが音声+テキストのマルチモーダル・インコンテキスト・デモンストレーションを通じて unseen 言語を学べるかを調査する。
  • ターゲット言語データなしでMICL性能を高めるため、クロスリンガル指示微調整(instruction fine-tuning)を検討する。
  • アテンション分析によってMICLの機構を解釈し、モダリティの使用と層のダイナミクスを理解する。
  • MICLガイダンスを用いて音響仮説を再ランク付けするASRシステムを提案・評価し、頑健性を向上させる。

提案手法

  • ASRをMICLとして、複数モーダル文脈(音声とテキストの対を伴うデモンストレーション)から標識語t*を予測することとして定式化する。
  • モダリティの寄与を分離するプロンプト変種を設計する:T-ICL、ICL、MICL、標準的なASRプロンプト。
  • インコンテキスト・プロンプト用にトップ-Nデモンストレーションを選択するリトリーバルベースのサンプル選択(SONAR)を使用する。
  • ターゲット言語データなしでのクロスリンガル一般化を改善するため、LoRAベースのクロスリンガル指示微調整を適用する。
  • N-best外部ASR仮説を、Acoustic_scoreとMICL LM_score(対数尤度)を組み合わせて再ランク付けし、最終出力を得るASR仮説選択システムを開発する。

実験結果

リサーチクエスチョン

  • RQ1 MICLにより、対になる音声−テキストデモンストレーションを用いて、音声LLMが unseen 低リソース言語を学習できるか?
  • RQ2 ターゲット言語データなしでのクロスリンガル指示微調整は、 unseen 言語でMICL性能を向上させるか?
  • RQ3 MICLにおける音声とテキストのアテンション配分はどのようになり、層位置はモダリティ使用に影響を与えるか?
  • RQ4 unseen 言語で、MICLベースの仮説選択は、純音響モデルやテキストのみLMよりASR性能を改善するか?
  • RQ5 ターゲット言語データがない場合、クロスリンガル転移はコーパス訓練済みLMを上回るか、あるいは同等か?

主な発見

  • MICLはKhinalug、Kichwa、Mbochiの unseen 言語でASR性能を一貫して向上させる。
  • クロスリンガル指示微調整はMICL性能を高め、場合によってはターゲット言語データなしでターゲット言語微調整に匹敵する。
  • アテンション分析は層依存のモダリティ嗜好を示し、全体的にはテキストへ偏るが、インコンテキストサンプルを増やすと音声への注意がわずかにシフトする。
  • プロンプトベースのASRは unseen 言語で性能が低い一方、MICLベースの仮説選択はいくつかのケースで音響ベースのWERより良好。
  • クロスリンガル転移は、ターゲット言語データなしでもコーパス訓練LMと同等以上を示すことが多く、MICLにおける広範な言語カバレッジの価値を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。