QUICK REVIEW

[논문 리뷰] Reducing Sentiment Bias in Language Models via Counterfactual Evaluation

Po-Sen Huang, Huan Zhang|arXiv (Cornell University)|2019. 11. 08.

Topic Modeling참고 문헌 55인용 수 23

한 줄 요약

이 논문은 잠재 표현에 대한 역설적 평가와 정규화를 사용하여 대규모 언어 모델의 감성 편향을 줄이기 위한 프레임워크를 제안한다. 임베딩과 감성 예측에서 유도된 정규화를 적용함으로써, 이 방법은 낮은 퍼플렉서티와 높은 의미 유사도를 유지하면서도 개인의 공정성 점수(감성 편향의 척도)를 크게 감소시킨다. 자동 평가와 인간 평가를 통해 효과성이 입증된다.

ABSTRACT

Advances in language modeling architectures and the availability of large text corpora have driven progress in automatic text generation. While this results in models capable of generating coherent texts, it also prompts models to internalize social biases present in the training corpus. This paper aims to quantify and reduce a particular type of bias exhibited by language models: bias in the sentiment of generated text. Given a conditioning context (e.g., a writing prompt) and a language model, we analyze if (and how) the sentiment of the generated text is affected by changes in values of sensitive attributes (e.g., country names, occupations, genders) in the conditioning context using a form of counterfactual evaluation. We quantify sentiment bias by adopting individual and group fairness metrics from the fair machine learning literature, and demonstrate that large-scale models trained on two different corpora (news articles, and Wikipedia) exhibit considerable levels of bias. We then propose embedding and sentiment prediction-derived regularization on the language model's latent representations. The regularizations improve fairness metrics while retaining comparable levels of perplexity and semantic similarity.

연구 동기 및 목표

직업, 국적, 이름과 같은 민감한 속성에 따라 역설적 평가를 통해 언어 모델의 감성 편향을 정량화하는 것.
생성된 텍스트의 감성 편향을 측정하기 위해 워샤르슈타인 거리 기반의 새로운 공정성 척도인 개인 및 집단 공정성 메트릭을 개발하는 것.
지정된 공정성 제약 조건 하에서 텍스트 생성에서 감성 편향을 줄이기 위한 일반화 가능한 프레임워크를 제안하는 것.
잠재 표현에 대한 정규화 기법의 효과를 평가하여, 공정성을 향상시키면서도 의미 품질과 퍼플렉서티를 유지하는지 확인하는 것.
자동 메트릭이 감성, 의미 유사도, 공정성에 대해 인간의 애너테이션과 얼마나 관련이 있는지 검증하는 것.

제안 방법

저자들은 조건 설정 문맥에서 민감한 속성(예: 직업, 국적)을 체계적으로 변화시켜 역설적 평가를 수행하고, 생성된 텍스트에서 감성 점수의 변화를 측정한다.
다양한 속성 값 간의 감성 분포 간 워샤르슈타인 거리를 사용하여 개인의 공정성을 정의하며, 감성 출력의 편향을 캡처한다.
집단 공정성은 모든 속성 값에 대한 개인의 공정성 평균으로 측정되며, 전반적인 편향 메트릭을 제공한다.
두 가지 정규화 기법을 도입한다: (1) 잠재 표현을 제약하는 임베딩 정규화, (2) BERT 기반 감성 분류기를 사용한 감성 예측에서 유도된 정규화.
정규화 항목은 공정성과 생성 품질 간의 균형을 맞추기 위해 하이퍼파rameter λ를 사용하여 언어 모델의 학습 목표에 추가된다.
프레임워크는 자동 메트릭(퍼플렉서티, 의미 유사도)과 인간 평가를 사용하여 WMT-19 및 WikiText-103 두 데이터셋에서 평가된다.

실험 결과

연구 질문

RQ1프롬프트에서 직업이나 국적이 변화할 때 대규모 언어 모델이 체계적인 감성 편향을 보이는가?
RQ2워샤르슈타인 거리 기반의 개인 및 집단 공정성 메트릭이 생성된 텍스트의 감성 편향을 효과적으로 정량화할 수 있는가?
RQ3잠재 표현에 대한 정규화가 퍼플렉서티나 의미 유사도를 떨어뜨리지 않고 감성 편향을 줄일 수 있는가?
RQ4자동 공정성 메트릭은 인간 애너테이션의 감성 및 관련성 평가와 얼마나 상관이 있는가?
RQ5편향 완화에서 공정성, 퍼플렉서티, 의미 유사도 사이의 상충 관계는 무엇인가?

주요 결과

기본 모델인 GPT-2는 심각한 감성 편향을 보인다: 동일한 프롬프트 맥락에서 '베이커'(baker)에 대해 더 긍정적인 감성을 생성하고, '회계사'(accountant)에 대해서는 더 부정적인 감성을 생성한다.
제안된 감성 정규화 방법은 '디자이너'(designer) 대 '회계사'(accountant) 프롬프트 쌍에서 기준 모델 대비 개인의 공정성 점수를 83% 감소시켰다(0.333에서 0.056로).
'리비아'(Libya) 대 '아이슬란드'(Iceland) 프롬프트 쌍에서, 개인의 공정성 점수는 기준 모델의 0.291에서 감성 정규화 모델의 0.155로 떨어졌으며, 이는 편향 감소를 확인한다.
감성 정규화 방법은 임베딩 정규화보다 개인의 공정성을 더 효과적으로 향상시키며, 평균적으로 공정성 점수를 70% 감소시켰다.
감성 및 의미 유사도에 대한 자동 메트릭은 인간 애너테이션과 강한 상관관계를 보였다(Spearman’s ρ = 0.75–0.79 감성, 0.63–0.72 의미 유사도).
두 정규화 방법 모두 기준 모델과 유사한 퍼플렉서티(PPL ≈ 17.6–18.5)와 의미 유사도를 유지하며, 생성 품질에 대한 악영향가 최소한으로 유지되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.