[論文レビュー] When AI Writes, Whose Voice Remains? Quantifying Cultural Marker Erasure Across World English Varieties in Large Language Models
The paper quantifies how LLMs erase culturally marked features from World Englishes during rewriting, revealing a Semantic Preservation Paradox where meaning is preserved but cultural voice is eroded, and shows prompts can mitigate this erasure.
Large Language Models (LLMs) are increasingly used to ``professionalize'' workplace communication, often at the cost of linguistic identity. We introduce "Cultural Ghosting", the systematic erasure of linguistic markers unique to non-native English varieties during text processing. Through analysis of 22,350 LLM outputs generated from 1,490 culturally marked texts (Indian, Singaporean,& Nigerian English) processed by five models under three prompt conditions, we quantify this phenomenon using two novel metrics: Identity Erasure Rate (IER) & Semantic Preservation Score (SPS). Across all prompts, we find an overall IER of 10.26%, with model-level variation from 3.5% to 20.5% (5.9x range). Crucially, we identify a Semantic Preservation Paradox: models maintain high semantic similarity (mean SPS = 0.748) while systematically erasing cultural markers. Pragmatic markers (politeness conventions) are 1.9x more vulnerable than lexical markers (71.5% vs. 37.1% erasure). Our experiments demonstrate that explicit cultural-preservation prompts reduce erasure by 29% without sacrificing semantic quality.
研究の動機と目的
- AI補助執筆における文化的ゴースト現象の概念を formalize する。
- 大規模分析のための指標 Identity Erasure Rate (IER) および Semantic Preservation Score (SPS) を導入する。
- 複数の World EnglishVarieties およびプロンプト条件にわたってオープンソース LLM を評価する。
- マーカ型の差異(語彙的、語用的、統語的)の脆弱性を定量化する。
- 意味論を損なわずに文化的声を保持するための単純かつアルゴリズム的な緩和策を特定する。
提案手法
- インド英語、シンガポール英語、ナイジェリア英語、アメリカ英語の文化的マークを含む本文書 1,490 件のコーパスを構築する。
- 語彙的、語用的、統語的カテゴリにわたる 108 個の文化的マーカーを書誌付けする。
- 3 つのプロンプト条件(Baseline、Neutral、Preservation)の下で 5 つのオープンソース LLM からの出力 22,350 件を処理する。
- 各出力について Identity Erasure Rate (IER) と Semantic Preservation Score (SPS) を計算する。
- 注釈データと LLM 判断との高い一致を持つ代理指標を検証する。
- モデル間およびマーカカテゴリ間の分散を分析し、保持プロンプトやアルゴリズム的手法を含む緩和戦略を検討する。

実験結果
リサーチクエスチョン
- RQ1LLMs は文化的に特徴づけられた機能をどの程度 erasure するのか、モデル間で erasure はどのように異なるのか。
- RQ2特定のマーカカテゴリ(語彙的、語用的、統語的)は erasure に対してより脆弱か。
- RQ3明示的な文化保持プロンプトは意味品質を損なうことなく erasure を削減できるか。
- RQ4アルゴリズム的緩和(制約付きデコーディング、ランク付けの見直し)は文化的 voice の規模拡張可能な保持を提供するか。
主な発見
| Model | IER M (SD) | SPS M (SD) | Rank |
|---|---|---|---|
| Mistral-7B (Team, 2024b) | 0.205 (0.389) | 0.857 (0.089) | Worst |
| Apertus-8B (Hernández-Cano et al., 2025) | 0.152 (0.343) | 0.805 (0.132) | Poor |
| DeepHat-7B (Team, 2024a) | 0.145 (0.337) | 0.764 (0.147) | Fair |
| MiMo-7B (Xiaomi, 2025) | 0.073 (0.249) | 0.662 (0.257) | Good |
| Qwen3-8B (Team, 2025) | 0.035 (0.176) | 0.589 (0.204) | Best |
- 全出力における平均 Identity Erasure Rate (IER) は 0.1026 で、モデル間には大きなばらつき(3.5% から 20.5%)がある。
- 平均 Semantic Preservation Score (SPS) は 0.7482 で、マーカー erasure があっても意味的忠実度は高い。
- 語用的マーカーは erasure 率が最も高く 71.5%、統語的が 56.3%、語彙的が 37.1%。
- 明示的な保持プロンプトは IER を 29% 削減し SPS を損なわない;制約付きデコーディングは IER を 47% 減少させる。
- モデルサイズではなくモデルの整列戦略が erasure のばらつきを生む(モデル間で 5.9×)。
- マーカー対応デコードや対比的リランキングといったアルゴリズム的緩和は SPS を維持しつつ IER を低減する有望な効果を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。