[論文レビュー] Language Family Matters: Evaluating LLM-Based ASR Across Linguistic Boundaries
本論文は multilingual LLM ベースの ASR において言語レベル接続詞と言語ファミリーレベル接続詞を比較し、ファミリーレベルの接続詞が約40言語・10ファミリにおいて一般に WER とドメイン横断のロバスト性を向上させることを示す。
Large Language Model (LLM)-powered Automatic Speech Recognition (ASR) systems achieve strong performance with limited resources by linking a frozen speech encoder to a pretrained LLM via a lightweight connector. Prior work trains a separate connector per language, overlooking linguistic relatedness. We propose an efficient and novel connector-sharing strategy based on linguistic family membership, enabling one connector per family, and empirically validate its effectiveness across two multilingual LLMs and two real-world corpora spanning curated and crowd-sourced speech. Our results show that family-based connectors reduce parameter count while improving generalization across domains, offering a practical and scalable strategy for multilingual ASR deployment.
研究の動機と目的
- 言語レベル接続詞と言語ファミリーレベル接続詞のどちらが multilingual ASR の性能向上につながるかを評価する。
- FLEURS と CommonVoice の両データセットで接続詞の一般化を評価する。
- 2 つの LLM バックボーン(Gemma と Salamandra)に対するクロスドメイン転移の利得と安定性を定量化する。
- ファミリーレベル接続詞が言語固有アプローチを上回る条件と、失敗する可能性のある状況を特定する。
提案手法
- 凍結された音声エンコーダと凍結された LLM デコーダを用いた Encoder–Connector–Decoder フレームワークを使用し、訓練対象は接続詞のみ。
- 音声表現をダウンサンプリングし、2 層の線形変換と GELU 活性化を介して LLM 埋め込み空間へ射影する。
- 2 つの接続タイプを比較:LangConn(言語ごと)と FamConn(ファミリごと)。
- FLEURS および CommonVoice データセットを用いて約40言語を跨ぐ10ファミリで評価。
- 一つのデータセットで訓練し別データセットでテストすることでドメイン横断転移を評価(FLEURS 対 CommonVoice)。
- 主指標として Word Error Rate (WER) を用い、デコード時にビームサイズ 2 でビームサーチを行う。
実験結果
リサーチクエスチョン
- RQ1RQ1: multilingual ASR において、個々の言語か言語ファミリーのどちらのデータ粒度がより効果的か。
- RQ2RQ2: 接続詞はドメイン間・転移設定でどれだけ一般化するか。
- RQ3RQ3: ファミリーレベル接続詞は2つの異なる multilingual LLM バックボーンに対してロバスト性を提供するか。
- RQ4RQ4: LangConn と FamConn のパラメータ効率と安定性のトレードオフはどうか。
- RQ5RQ5: 言語ファミリ―が非常に多様または音声学的に相違の大きい場合、言語固有接続詞がファミリーレベル共有を上回るシナリオはあるか。
主な発見
- FamConn はほぼすべてのファミリと構成で LangConn を上回り、WER を減少させ安定性を高める。
- 両データセット・両バックボーンでファミリーレベルの共有が顕著な利得をもたらす。例:Germanic および Romance で FamConn 使用時の WER が大幅に低下(例:CommonVoice: Germanic 77.71% → 33.55%、Romance 62.18% → 25.49%)。
- ドメイン横断転移はほとんどのファミリと言語で FamConn を支持しており、クロスドメイン一般化のための帰納的バイアスがより強いことを示す;例外として Dravidian などがある。
- 全言語で訓練された普遍的接続詞(UniConn)は稀に FamConn を上回らず、利得はデータ量だけでなく言語的関連性が駆動することを示唆。
- 言語固有の接続詞は、非常に多様または音声学的に大きく異なるファミリで、FamConn を上回る場合があり、ファミリーレベル共有の限界を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。