[논문 리뷰] Having Beer after Prayer? Measuring Cultural Bias in Large Language Models
이 논문은 20,368개의 Arab 대 Western 엔터티와 628개의 프롬프트로 구성된 문화 중심 벤치마크 CAMeL을 소개하여 아랍어 LMs의 문화적 편향을 평가하고, 다국어 및 단일 언어 모델 전반에서 Western 편향과 문화적 불공정성, 그리고 사전 학습 데이터의 영향에 대한 통찰을 제공합니다.
As the reach of large language models (LMs) expands globally, their ability to cater to diverse cultural contexts becomes crucial. Despite advancements in multilingual capabilities, models are not designed with appropriate cultural nuances. In this paper, we show that multilingual and Arabic monolingual LMs exhibit bias towards entities associated with Western culture. We introduce CAMeL, a novel resource of 628 naturally-occurring prompts and 20,368 entities spanning eight types that contrast Arab and Western cultures. CAMeL provides a foundation for measuring cultural biases in LMs through both extrinsic and intrinsic evaluations. Using CAMeL, we examine the cross-cultural performance in Arabic of 16 different LMs on tasks such as story generation, NER, and sentiment analysis, where we find concerning cases of stereotyping and cultural unfairness. We further test their text-infilling performance, revealing the incapability of appropriate adaptation to Arab cultural contexts. Finally, we analyze 6 Arabic pre-training corpora and find that commonly used sources such as Wikipedia may not be best suited to build culturally aware LMs, if used as they are without adjustment. We will make CAMeL publicly available at: https://github.com/tareknaous/camel
연구 동기 및 목표
- 글로벌 맥락에서 문화적으로 인지된 LM의 필요성을 고무한다.
- CAMeL을 구성하여 프롬프트와 엔터티에서 Arab 대 Western 문화적 표현을 비교한다.
- 생성, NER, 감정 분석, 텍스트 인필링에서 아랍어 LMs의 교차문화 성능을 평가한다.
- LM의 문화 적응성에 영향을 주는 아랍어 사전 학습 데이터 소스를 분석한다.
제안 방법
- Wikidata와 CommonCrawl에서 가져온 팔대 엔터티 유형(사람 이름, 음식 요리, 음료, 의류 품목, 위치, 저자, 종교 예배 장소, 스포츠 클럽)을 Arab 대 Western으로 라벨링하여 CAMeL을 만든다.
- Twitter/X 맥락에서 628개의 자연발생 아랍어 프롬프트(CAMeL-Co)와 378개의 중립 프롬프트(CAMeL-Ag)를 생성한다.
- 스토리 생성에서의 고정관념 분석, NER 및 감정 분석의 교차문화 공정성, 텍스트 인필링 성능(CBS 지표)을 통해 문화적 편향을 측정한다.
- 프롬프트 전반에서 Western 대 Arab 엔터티에 대한 LM 채움 확률을 비교하기 위한 Cultural Bias Score(CBS)를 정의한다.
- GPT형 모델에 대한 맥락 학습(in-context learning)과 BERT형 모델에 대한 화용 학습(fine-tuning)을 아랍어 NLU 벤치마크의 NER 및 감정 분석에 수행한다.
- Western 콘텐츠의 보급을 평가하기 위해 n-gram LM을 학습하고 CBS를 계산하여 여섯 개의 아랍어 사전 학습 말뭉치를 분석한다.

실험 결과
연구 질문
- RQ1비영어권 또는 비서구 맥락(아랍어 프롬프트)에서 LM이 서구 엔터티에 편향되는가?
- RQ2CAMeL이 LM들의 NER 및 감정 분석에서의 고정관념, 불공정성, 텍스트 인필링 적응을 효과적으로 드러내는가?
- RQ3아랍어 사전 학습 말뭉대가 LM의 문화적 적응성 및 서구 편향에 어떤 영향을 미치는가?
- RQ4문화적으로 맥락화된 프롬프트(CAMeL-Co)가 중립 프롬프트(CAMeL-Ag)와 비교하여 서구 편향을 감소시키는가, 아니면 악화시키는가?
주요 결과
- CAMeL은 스토리 생성, NER, 감정 분석, 텍스트 인필링의 교차문화 테스트를 가능하게 한다.
- LM은 스토리에서 Arab 이름을 가난/전통성과 연관시키고 Western 이름은 더 높은 지위나 부와 연관시키는 고정관념을 보인다.
- NER 성능은 Western 엔터티에 대해 Arab 엔터티보다 우수하며, 위치의 경우 차이가 최대 약 20 F1 포인트까지 크게 나타난다.
- 감정 분석은 Arab 엔터티가 포함된 문장에서 거짓부정이 더 많이 발생하는 경향을 보여 Arab 엔터티에 부정적 감정과의 연관 편향이 있음을 시사한다.
- 문화적으로 맥락화된 프롬프트(CAMeL-Co)는 LM 전반에서 서구 편향(CBS 40–60%)를 드러내며, 다국어 LMs에서 더 강한 서구 편향을 보인다.
- 프롬프트 적응 기술(특히 Arab demonstrations)은 CBS를 감소시킬 수 있는 반면, 문화 토큰은 효과가 제한적이다.
- 사전 학습 데이터 소스(Wikipedia, 국제 뉴스, 웹 크롤링)는 서구 중심적이며 CBS가 더 높은 경향과 상관관계가 있다; 지역 뉴스 및 Twitter/X 데이터는 CBS가 더 낮다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.