[논문 리뷰] Bias Out-of-the-Box: An Empirical Analysis of Intersectional Occupational Biases in Popular Generative Language Models
이 논문은 성별과 종교, 성적 지향, 민족성, 정치적 성향, 대륙 이름 기원의 교차를 이용한 프롬프트 방식으로 GPT-2 모델의 직업 편향을 분석하고, 예측을 미국 노동시장 데이터와 비교합니다.
The capabilities of natural language models trained on large-scale data have increased immensely over the past few years. Open source libraries such as HuggingFace have made these models easily available and accessible. While prior research has identified biases in large language models, this paper considers biases contained in the most popular versions of these models when applied `out-of-the-box' for downstream tasks. We focus on generative language models as they are well-suited for extracting biases inherited from training data. Specifically, we conduct an in-depth analysis of GPT-2, which is the most downloaded text generation model on HuggingFace, with over half a million downloads per month. We assess biases related to occupational associations for different protected categories by intersecting gender with religion, sexuality, ethnicity, political affiliation, and continental name origin. Using a template-based data collection pipeline, we collect 396K sentence completions made by GPT-2 and find: (i) The machine-predicted jobs are less diverse and more stereotypical for women than for men, especially for intersections; (ii) Intersectional interactions are highly relevant for occupational associations, which we quantify by fitting 262 logistic models; (iii) For most occupations, GPT-2 reflects the skewed gender and ethnicity distribution found in US Labor Bureau data, and even pulls the societally-skewed distribution towards gender parity in cases where its predictions deviate from real labor market observations. This raises the normative question of what language models should learn - whether they should reflect or correct for existing inequalities.
연구 동기 및 목표
- 대중적으로 바로 사용할 수 있는 생성 언어 모델이 소수자 계층에 해를 줄 수 있는 교차적 직업 편향을 보이는지 여부를 평가합니다.
- 성별 및 교차된 보호 특성이 GPT-2의 예측 직업에 어떻게 영향을 미치는지 정량화합니다.
- GPT-2의 직업 예측과 미국 고용시장 분포를 비교하여 정렬의 일치 여부나 차이를 이해합니다.
- 생성 모델의 교차 편향을 조사하기 위한 데이터 수집 및 분석 프로토콜을 제공합니다.
제안 방법
- 특정 정체성 기반 프롬프트와 이름 기반 프롬프트를 이용해 396K개의 GPT-2 문장 완성을 생성하는 템플릿 기반 데이터 수집 파이프라인을 사용합니다.
- Stanford CoreNLP NER를 사용해 생성된 문장에서 직업을 추출하고 직무 토큰의 원-핫 빈도 행렬을 구축합니다.
- 전체 호출의 0.25%에 불과한 하한 임계값을 적용해 자주 등장하는 직업에 분석을 집중하고, 교차 상호 작용 항을 포함한 로지스틱 회귀 모델을 적합해 p(job|X,Y)를 예측합니다.
- 참조군으로 남성(baseline)을 두고 여성 및 각 교차 범주에 대한 더미 변수와 상호 작용 항을 포함시켜 추가 설명 가능성을 평가합니다.
- 모델의 예측을 2019년 미국 노동통계국(BLS) 직업 점유율과 비교하고, 인구구성 분포를 고려해 예측치를 스케일링 계수로 보정합니다.
- XLNet에서 일관된 결과를 확인하고 top_k 및 온도와 같은 하이퍼파라미터의 ablation을 수행해 모델의 견고성을 평가합니다.
실험 결과
연구 질문
- RQ1교차 특성(성별과 민족, 종교, 성적 지향, 정치 성향 또는 대륙 이름 기원)의 조합이 GPT-2의 바로 사용 가능한 직업 연상에 실질적으로 영향을 미치는가?
- RQ2이러한 교차 효과가 직업 예측에서 주요 효과(단일 성별) 이상의 예측력을 부여하는가?
- RQ3GPT-2의 직업 예측은 성별-민족 교차에 따라 미국 노동시장 분포와 어떻게 비교되는가?
주요 결과
- 여성에 대한 직업 연상은 남성에 비해 덜 다양하고 더 고정관념적이며, 교차에 따른 여성의 직업 군집화가 더 큰 경향을 보입니다.
- 262개의 로지스틱 회귀에서 여성 더미가 대개 유의하며(특히 민족과 종교에서 뚜렷), 평균적으로 McFadden R2에 약 3.3% 포인트의 추가 변동성을 설명합니다.
- 교호작용은 회귀의 약 3분의 1에서 유의하며, 교차 간 상호 작용의 영향이 다르게 나타나 특정 조합(예: 특정 민족성이나 성적 지향을 가진 여성)에서 예측 직업을 바꿉니다.
- 예상되는 성별-민족 직업 분포는 미국 인구 구성 비율과 근접하게 정렬되지만, GPT-2는 극단 값을 과소평가하고 상위 직종에서 여성의 군집화를 과도하게 예측하는 경향이 있습니다.
- 대부분의 직종에 대해 GPT-2는 미국 노동시장 편향을 반영하거나 성별 평등으로의 이동을 보이고 있어, 모델이 사회적 편향을 반영해야 하는지 혹은 그것을 바로잡아야 하는지에 대한 규범적 질문을 제기합니다.
- 미국 데이터와 비교했을 때, GPT-2는 웨이트리스나 간호사와 같은 직종에서 여성을 과대 예측하고 고도 분리적 역할에서 여성을 과소 예측하는 등 고정관념적 분포에 치우친 편향을 보입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.