[论文解读] JUBAKU: An Adversarial Benchmark for Exposing Culturally Grounded Stereotypes in Japanese LLMs
JUBAKU 是一个聚焦日本文化的对抗性基准,通过在十个文化类别围绕对话提示设计 biased 与 unbiased 回应来揭示大语言模型的潜在偏见。与英语来源的基准不同,模型在 JUBAKU 上的表现甚至低于随机基线。
Social biases reflected in language are inherently shaped by cultural norms, which vary significantly across regions and lead to diverse manifestations of stereotypes. Existing evaluations of social bias in large language models (LLMs) for non-English contexts, however, often rely on translations of English benchmarks. Such benchmarks fail to reflect local cultural norms, including those found in Japanese. For instance, Western benchmarks may overlook Japan-specific stereotypes related to hierarchical relationships, regional dialects, or traditional gender roles. To address this limitation, we introduce Japanese cUlture adversarial BiAs benchmarK Under handcrafted creation (JUBAKU), a benchmark tailored to Japanese cultural contexts. JUBAKU uses adversarial construction to expose latent biases across ten distinct cultural categories. Unlike existing benchmarks, JUBAKU features dialogue scenarios hand-crafted by native Japanese annotators, specifically designed to trigger and reveal latent social biases in Japanese LLMs. We evaluated nine Japanese LLMs on JUBAKU and three others adapted from English benchmarks. All models clearly exhibited biases on JUBAKU, performing below the random baseline of 50% with an average accuracy of 23% (ranging from 13% to 33%), despite higher accuracy on the other benchmarks. Human annotators achieved 91% accuracy in identifying unbiased responses, confirming JUBAKU's reliability and its adversarial nature to LLMs.
研究动机与目标
- 推动对日本大语言模型中超越英语翻译的文化意识偏见评估。
- 定义并构建一个符合日本文化规范的对抗性对话基准。
- 评估多种日本大语言模型并与英语改编基线进行比较,以揭示潜在偏见。
- 通过 GPT-4o 驱动的构建与人工校验来展示对抗性数据的鲁棒性。
提出的方法
- 将十个日本文化类别用于引导偏见提示(性别、宗教、民族、教育、种族、区域、情感与价值观、食物与饮品、基本行动、名字)。
- 人工设计带有文化特定刻板印象的偏见与无偏见的对话提示。
- 通过对 GPT-4o 进行迭代提示以偏向偏见回答并不断优化提示来对抗性构建样例,直至诱发偏见。
- 在基础样例中增加四个任务变体并互换答案顺序以降低位置偏置。
- 评估标准化为二选一的准确性任务:在偏见/无偏见对中选择无偏见的回答。
- 评估九个日本大语言模型和三个英语改编基线,覆盖 JUBAKU 以及现有日本偏见基准(JBNLI、JBBQ、SSQA-JA)。

实验结果
研究问题
- RQ1一个具有文化根源的对抗性日本偏见基准是否能揭示英语派生基准未捕捉到的潜在偏见?
- RQ2日本大语言模型在 JUBAKU 上的表现与现有日本偏见基准相比如何?
- RQ3使用 GPT-4o 构建的对抗性提示在不同模型中是否能有效诱发偏见回答?
- RQ4哪些文化类别在大语言模型中对偏见具备最大的鲁棒性或脆弱性?
主要发现
- 九个日本大语言模型在 JUBAKU 上的准确率均低于随机基线(50%),平均为 23%,范围为 13%-33%。
- 在现有日本基准(JBNLI、JBBQ、SSQA-JA)上,模型的准确率显著较高,表明 JUBAKU 揭示了这些基准无法暴露的偏见。
- 人工评注者在识别无偏见回答方面达到 91% 的准确率,验证了 JUBAKU 的可靠性与对抗性设计。
- 即使原本无偏见,对抗性编辑也会导致各模型的准确率下降,显示偏见诱发的泛化性超出 GPT-4o 构建的范围。
- 按类别的分析显示鲁棒性各异;某些类别(宗教、种族)需要更多编辑,而区域与民族类别在较少的编辑下就会产生错误。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。