QUICK REVIEW

[논문 리뷰] JUBAKU: An Adversarial Benchmark for Exposing Culturally Grounded Stereotypes in Japanese LLMs

Taihei Shiotani, Masahiro Kaneko|arXiv (Cornell University)|2026. 03. 21.

Hate Speech and Cyberbullying Detection인용 수 0

한 줄 요약

JUBAKU는 일본 문화에 초점을 맞춘 적대적 벤치마크로, 열 가지 문화 범주를 중심으로 제작된 대화 프롬프트에서 편향된 응답과 편향되지 않은 응답 중 선택함으로써 LLM 내의 잠재 편향을 드러낸다. JUBAKU에서 모델은 영어 기원 벤치마크와 달리 무작위보다 성능이 떨어진다.

ABSTRACT

Social biases reflected in language are inherently shaped by cultural norms, which vary significantly across regions and lead to diverse manifestations of stereotypes. Existing evaluations of social bias in large language models (LLMs) for non-English contexts, however, often rely on translations of English benchmarks. Such benchmarks fail to reflect local cultural norms, including those found in Japanese. For instance, Western benchmarks may overlook Japan-specific stereotypes related to hierarchical relationships, regional dialects, or traditional gender roles. To address this limitation, we introduce Japanese cUlture adversarial BiAs benchmarK Under handcrafted creation (JUBAKU), a benchmark tailored to Japanese cultural contexts. JUBAKU uses adversarial construction to expose latent biases across ten distinct cultural categories. Unlike existing benchmarks, JUBAKU features dialogue scenarios hand-crafted by native Japanese annotators, specifically designed to trigger and reveal latent social biases in Japanese LLMs. We evaluated nine Japanese LLMs on JUBAKU and three others adapted from English benchmarks. All models clearly exhibited biases on JUBAKU, performing below the random baseline of 50% with an average accuracy of 23% (ranging from 13% to 33%), despite higher accuracy on the other benchmarks. Human annotators achieved 91% accuracy in identifying unbiased responses, confirming JUBAKU's reliability and its adversarial nature to LLMs.

연구 동기 및 목표

일본어 LLM에서 영어 번역을 넘어서는 문화적으로 의식된 편향 평가를 촉진한다.
일본 문화적 규범에 맞춘 적대적이고 대화 기반의 벤치마크를 정의하고 구성한다.
여러 일본어 LLM을 평가하고 영어에 맞춘 기반과 비교하여 잠재 편향을 드러낸다.
GPT-4o 주도 구축과 인간 검증을 통해 적대적 데이터의 견고성을 입증한다.

제안 방법

편향 프롬프트를 안내하기 위한 열 가지 일본 문화 범주 정의(성별, 종교, 민족성, 교육, 인종, 지역, 감정과 가치, 음식과 음료, 기본 행동, 이름).
문화별 고정관념을 반영하는 편향된 응답 옵션과 편향되지 않은 응답 옵션으로 대화 프롬프트를 수동으로 작성한다.
GPT-4o를 반복적으로 프롬프트하여 편향된 응답을 선호하도록 하고 프롬프트를 다듬어 편향이 유도될 때까지 적대적으로 인스턴스를 구성한다.
기본 인스턴스를 네 가지 작업 변형과 응답 순서를 바꿔 위치 편향을 줄인다.
편향-대 편향의 쌍에서 편향되지 않은 응답을 선택하는 이진 선택 정확도 평가로 표준화한다.
JUBAKU와 기존 일본 편향 벤치마크(JBNLI, JBBQ, SSQA-JA) 전반에 걸쳐 아홉 개의 일본어 LLM과 세 개의 영어 확장 베이스라인을 평가한다.

실험 결과

연구 질문

RQ1문화적으로 근거한 일본어 편향 벤치마크가 영어 기반 벤치마크에서 포착되지 않는 LLM의 잠재 편향을 드러낼 수 있는가?
RQ2일본어 LLM은 기존의 일본어 편향 벤치마크와 비교하여 JUBAKU에서 어떻게 수행하는가?
RQ3GPT-4o로 구성된 적대적 프롬프트가 서로 다른 모델에서 편향된 응답을 이끌어내는 데 효과적인가?
RQ4어떤 문화 범주가 LLM의 편향에 대해 가장 높은 강건성이나 취약성을 보이는가?

주요 결과

모든 아홉 개의 일본어 LLM은 JUBAKU에서 무작위 기준선(50%)보다 낮은 점수를 받았으며 평균 정확도는 23%, 범위는 13%–33%였다.
기존 일본어 벤치마크(JBNLI, JBBQ, SSQA-JA)에서 모델은 훨씬 더 높은 정확도를 달성했으며, JUBAKU가 이러한 벤치마크로는 드러나지 않는 편향을 드러냄을 시사한다.
인간 주석자들은 편향되지 않은 응답을 식별하는 데 91%의 정확도를 달성하여 JUBAKU의 신뢰성과 적대적 설계를 검증했다.
초기에는 편향되지 않았던 적대적 편집도 모델 전반의 정확도 하락을 일으켰으며 GPT-4o 주도 구축을 넘어 편향 유도의 일반화를 보였다.
범주별 분석은 다양한 강건성을 보였고 일부 범주(종교, 인종)는 더 많은 편집이 필요했고 지역과 민족성은 더 적은 편집에서도 오류를 낳았다.

Figure 2: Bias evaluation accuracy across models and benchmarks. Dotted lines indicate the random baseline (red) and human evaluation performance on JUBAKU (blue).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.