QUICK REVIEW

[論文レビュー] MiLorE-SSL: Scaling Multilingual Capabilities in Self-Supervised Models without Forgetting

Jing Xu, Minglin Wu|arXiv (Cornell University)|Jan 28, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

MiLorE-SSLはLoRAベースのエキスパートとソフト混合エキスパートルータ、限られたリプレイ戦略を組み合わせることで、パラメータ効率の高い継続的多言語拡張を実現し、新しい言語での忘却を最小限に抑えつつ性能を向上させる。

ABSTRACT

Self-supervised learning (SSL) has greatly advanced speech representation learning, but multilingual SSL models remain constrained to languages encountered during pretraining. Retraining from scratch to incorporate new languages is computationally expensive, while sequential training without migitation strategies often leads to catastrophic forgetting. To address this, we propose MiLorE-SSL, a lightweight framework that combines LoRA modules with a soft mixture-of-experts (MoE) mechanism for efficient continual multilingual training. LoRA provides efficient low-rank adaptation, while soft MoE promotes flexible expert sharing across languages, reducing cross-lingual interference. To further mitigate forgetting, we introduce limited replay data from existing languages, avoiding reliance on large historical corpora. Experiments on ML-SUPERB demonstrate that MiLorE-SSL achieves strong performance in new languages and improves the ability in existing ones with only 2.14% trainable parameters.

研究の動機と目的

SSL音声モデルを新しい言語へ拡張する際の全学習 retraining の課題に対処する。
継続的な多言語学習中の壊滅的忘却を緩和する。
最小限の学習可能パラメータで言語を追加する軽量なアーキテクチャを提案する。
ML-SUPERBで評価し、新言語での利得と既存言語の保持を示す。
限定データによるリプレイが忘却を低減するのに十分であることを示す。

提案手法

HuBERTベースのSSLモデルの各TransformerブロックのFFNをMiLorEモジュールに置換。
MiLorEモジュールには凍結されたFFNバックボーンW0、複数のLoRAベースのエキスパート{E1,...,EN}、およびソフトルータを含む。
エキスパートはLoRAでパラメータ化：ΔWEi = Bi Ai、低ランクrを持つ。
ルータはソフトルーティング重みp = softmax(Wr h_in)を計算し、エキスパート出力をソフトに混合。
出力 o = W0 h_in + sum_i p_i Ei(h_in)（Eiは Bi Ai h_in として実装）。
FFNバックボーンは凍結のままにして、LoRA成分とルータのみを訓練して事前知識を維持。
リプレイ戦略は継続的学習中に既に学習した言語データの小さなサンプルを取り入れ、忘却を緩和する。
訓練目的はHuBERTのマスク化予測損失に従い、SSL表現上のK-meansから得たターゲットz_tを新規データとリプレイデータの両方に適用する。

Fig. 1 : Overview of MiLorE-SSL framework. (a) Architecture of HuBERT-based SSL models. (b) Transformer block with MiLorE module. (c) Architecture of MiLorE module, where a router selects experts to process input hidden states alongside a frozen FFN.

実験結果

リサーチクエスチョン

RQ1LoRAベースのエキスパートとソフトMoEルータは、崩壊的忘却なしにマルチ言語SSLモデルを新しい言語へ拡張できるか。
RQ2限定的な歴史データを用いたリプレイ戦略は、継続的な多言語学習中に以前の言語の性能を十分に保持するか。
RQ3MiLorE-SSLは完全 retraining や従来のMoE/LoRAベースと比較して性能とパラメータ効率の面でどうか。
RQ4エキスパート数とLoRAランクは多言語性能と安定性にどのような影響を与えるか。

主な発見

System	Monolingual ASR CommonVoice eng CER	Monolingual ASR CommonVoice cmn CER	Monolingual ASR CommonVoice yue CER	Monolingual ASR CommonVoice avg CER	Monolingual ASR Fleurs eng CER	Monolingual ASR Fleurs cmn CER	Monolingual ASR Fleurs yue CER	Monolingual ASR Fleurs avg CER	LID eng ACC	LID cmn ACC	LID yue ACC	LID avg ACC
mHuBERT-147 (1iter)	30.2	24.7	21.8	25.57	26.6	25.6	25.3	25.83	93.41	91.30	93.10	92.60
mHuBERT-147 (2iter)	21.2	17.4	15.8	18.13	18.2	16.4	17.2	17.27	97.60	96.89	98.85	97.78
mHuBERT-147 (3iter)	18.5	15.5	14.8	16.27	15.9	15.1	15.6	15.53	98.20	96.89	96.55	97.21
HuBERT_Large	11.5	21.2	17.6	16.77	10.4	21.2	18.1	16.57	97.60	90.68	96.55	94.94
MiLorE-SSL (Ours)	10.3	10.7	11.0	10.67	9.4	10.2	11.6	10.40	99.40	99.38	99.43	99.40
-MoE	11.0	11.3	11.1	11.13	10.0	10.7	11.9	10.87	98.20	98.76	99.43	98.80
-Replay	26.6	10.8	10.9	16.10	24.8	10.3	11.4	15.50	98.20	97.52	99.43	98.28
-MoE+Replay	27.5	10.6	10.6	16.23	24.4	9.9	11.5	15.27	95.21	88.82	99.43	94.49

MiLorE-SSLは新言語で強力な性能を達成しつつ、既存言語の性能を保持または改善し、訓練可能パラメータはわずか2.14%である。
CommonVoiceでのCERは eng 10.3%、cmn 10.7%、yue 11.0%、平均10.67で、mHuBERT-147とHuBERT_Largeを多言語設定で上回る。
Fleurs（域外データ）では eng 10.4%、cmn 10.2%、yue 11.6%、平均10.40で、LID精度の平均は99.40%を維持。
MiLorE-SSLのLID精度の平均は99.40%、mHuBERT-147の97.21%、HuBERT_Largeの94.94%を上回る。
アブレーション結果ではMoEを削除すると言語・タスクを跨いで性能が低下する一方、リプレイは特に英語の性能を助ける。MoEとリプレイの組み合わせが最良の結果を生む。
言語別・言語共有表現を示す層別エキスパート活性化の分析は、ソフトMoE設計が柔軟な共有と特化を実現していることを裏付ける。

Fig. 2 : Layer-wise expert weights across languages

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。