[論文レビュー] Layer-wise Swapping for Generalizable Multilingual Safety
この論文は、訓練を要さない安全性意識を持つ層/モジュール置換手法を提案し、英語の安全性専門家から低リソース多言語モデルへ安全性の整合性を移行させ、一般的な言語理解を維持しつつ多言語の安全性を向上させる。
Despite the rapid advancements of Large Language Models (LLMs), safety risks remain a critical challenge for low-resource languages. Existing safety datasets are predominantly English centric, limiting progress in multilingual safety alignment. As a result, low resource expert models, finetuned on their respective instruction datasets, tend to exhibit higher unsafety rates compared to their high resource counterparts. In this work, we propose a safety aware layer swapping method that transfers safety alignment from an English safety expert to low resource language experts without additional training. To further enhance transfer ability, our method adaptively selects or blends modules based on their degree of specialization. Our approach preserves performance on general language understanding tasks while enhancing safety in the target languages. Experimental results show that the proposed method achieves comparable performance to the language expert on general benchmarks such as MMMLU, BELEBELE, and MGSM, while producing more aligned and less harmful responses on the MultiJail safety benchmark.
研究の動機と目的
- multilingual LLMs における英語中心の安全データセットによる安全性ギャップを是正する。
- 英語から低リソース言語へ安全性整合を移行する層ごと・モジュールごとの置換手法を提案する。
- 統一表現空間内で多言語性と安全性の専門性を組み合わせるタスクベクトルベースのフレームワークを開発する。
- 導入専門度に応じてモジュール(AttentionとMLP)を自動選択またはブレンドし、安全性移転を最適化する。
- 低リソース言語での多言語安全性を改善しつつ、一般的なベンチマークでの性能を維持することを実証する。
提案手法
- 層置換を多言語タスクベクトルと安全タスクベクトルの組み合わせとして定式化する(基盤モデルからの theta 差分)。
- Self-attention と MLP のモジュールに分解してモジュール単位の置換へ拡張し、タスクベクトルを算出する。
- 相対的更新量を用いてモジュールごとの重要度を算出し、ノーマライズして層/モジュールの重要度スコアを生成する。
- 閾値 tau と内挿ウェイト alpha(デフォルト tau=0.001, alpha=0.5)を用いてモジュールを自動選択またはブレンドする。
- 安全性と多言語更新を統合してハイブリッドモデルを構築する効率的な訓練不要手順(アルゴリズム1)を提供する。

実験結果
リサーチクエスチョン
- RQ1英語の安全性専門家からの安全性整合性を追加訓練なしで低リソース言語へ移行できるか。
- RQ2 動的なモジュール置換が、言語理解の一般性を保ちつつ言語間の安全性を向上させるか。
- RQ3 注意機構とMLPモジュールをどのようにブレンドまたは選択すれば多言語安全性移転を最適化できるか。
- RQ4 自動層/モジュール選択が複数の低リソース言語での安全性と一般性能に与える影響はどうなるか。
- RQ5 提案手法は異なる基盤モデルや多言語ベンチマークに対して頑健か。
主な発見
- 層ごとの置換は複数言語での不安全性を低減し、MMMLU、BELEBELE、MGSM などのベンチマークで一般性能を維持する。
- モジュールごとの置換は層置換よりも跨言語の頑健性と安全性移転をさらに改善する。
- 適応的な訓練不要の統合戦略は、安全性を高めつつ言語単独または安全性単独のベースラインより競争力のある、あるいは改善された性能を達成する。
- 安全性判断を評価へ統合すると、有害なプロンプトに対する人間判断と高い一致を示す(Qwen Guard 〜85.5% 平均精度)。
- アブレーション研究は tau=0.001 と alpha=0.5 が安全性移転と言語理解の最良のトレードオフを提供することを示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。