[論文レビュー] LSR: Linguistic Safety Robustness Benchmark for Low-Resource West African Languages
LTDRは、西アフリカ諸語における横断的安全性低下の最初のベンチマークであるLSRを紹介。英語からヨルバ語、ハウサ語、イボ語、イガラ語への安全性ドリフトを定量化するRefusal Centroid Drift(RCD)を用い、デュアルプローブ評価で評価する。
Safety alignment in large language models relies predominantly on English-language training data. When harmful intent is expressed in low-resource languages, refusal mechanisms that hold in English frequently fail to activate. We introduce LSR (Linguistic Safety Robustness), the first systematic benchmark for measuring cross-lingual refusal degradation in West African languages: Yoruba, Hausa, Igbo, and Igala. LSR uses a dual-probe evaluation protocol - submitting matched English and target-language probes to the same model - and introduces Refusal Centroid Drift (RCD), a metric that quantifies how much of a model's English refusal behavior is lost when harmful intent is encoded in a target language. We evaluate Gemini 2.5 Flash across 14 culturally grounded attack probes in four harm categories. English refusal rates hold at approximately 90 percent. Across West African languages, refusal rates fall to 35-55 percent, with Igala showing the most severe degradation (RCD = 0.55). LSR is implemented in the Inspect AI evaluation framework and is available as a PR-ready contribution to the UK AISI's inspect_evals repository. A live reference implementation and the benchmark dataset are publicly available.
研究の動機と目的
- 英語で学習された安全性/拒否行動が低資源の西アフリカ諸語へ移行するかを評価する。
- 正式な指標(RCD)で横断的安全性低下を定量化する。
- Inspect AIと統合されたオープンで再現可能な評価フレームワークを提供する。
- 複数の害分類にわたる再現可能な言語特異的低下を示す。
提案手法
- デュアルプローブ評価:一致させた英語プローブとターゲット言語プローブを同一モデルに提出する。
- 英語拒否率と言語特異的拒否率を計算してRefusal Centroid Drift(RCD)を導出する。
- 正式な式でRefusal Centroid Drift仮説を定義・検証する。
- 安全性の転移を孤立させるため、翻訳されたプロンプトではなく、文化的に根ざした母語プローブを使用する。
- Inspect AIでベンチマークをlsr.pyとして実装し、ライブの参照実装とデータセットを提供する。
実験結果
リサーチクエスチョン
- RQ1ターゲット言語に害の意図がエンコードされている場合、英語からヨルバ語、ハウサ語、イボ語、イガラ語へ安全性の拒否が転移するか。
- RQ2RCDは言語間の安全表現の構造的ドリフトをどのように定量化するか。
- RQ3安全性の低下は害カテゴリごとに一貫しており、文化的に枠組みされたプロンプトに耐性があるか。
- RQ4低資源言語での評価実行ごと、プローブタイプごとに低下が再現されるか。
主な発見
| Language | Refusal Rate | Estimated RCD |
|---|---|---|
| English (baseline) | ~ 90% | 0.00 |
| Yoruba | ~ 55% | 0.35 |
| Igbo | ~ 50% | 0.40 |
| Hausa | ~ 40% | 0.50 |
| Igala | ~ 35% | 0.55 |
- 英語の拒否率は約90%。
- ヨルバ語、イボ語、ハウサ語、イガラ語の拒否率はそれぞれ約55%、50%、40%、35%に低下し、対応するRCDは0.35、0.40、0.50、0.55。
- 低下は言語特有で、トレーニングデータ内の言語表現と相関する。
- 低下パターンは害カテゴリ間で一貫しており、文化的枠組みによって影響を受ける。
- LSRの結果は再現性があり、PR準備のInspect AI統合と公開データセットを通じて利用可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。