QUICK REVIEW

[논문 리뷰] Towards Understanding and Mitigating Social Biases in Language Models

Paul Pu Liang, Chiyu Wu|arXiv (Cornell University)|2021. 06. 24.

Topic Modeling인용 수 127

한 줄 요약

본 논문은 언어 모델에서 표현 편향의 원인을 정형화하고, 벤치마크와 Autoregressive INLP(A-INLP) 디바이싱 방법을 제시하며, 생성 품질을 유지하면서 편향 완화를 입증한다.

ABSTRACT

As machine learning methods are deployed in real-world settings such as healthcare, legal systems, and social science, it is crucial to recognize how they shape social biases and stereotypes in these sensitive decision-making processes. Among such real-world deployments are large-scale pretrained language models (LMs) that can be potentially dangerous in manifesting undesirable representational biases - harmful biases resulting from stereotyping that propagate negative generalizations involving gender, race, religion, and other social constructs. As a step towards improving the fairness of LMs, we carefully define several sources of representational biases before proposing new benchmarks and metrics to measure them. With these tools, we propose steps towards mitigating social biases during text generation. Our empirical results and human evaluation demonstrate effectiveness in mitigating bias while retaining crucial contextual information for high-fidelity text generation, thereby pushing forward the performance-fairness Pareto frontier.

연구 동기 및 목표

언어 모델의 텍스트 생성에서 정밀한 로컬 편향과 고수준의 글로벌 편향을 정의한다.
다양한 맥락에서 로컬 및 글로벌 편향을 모두 측정하는 벤치마크와 지표를 개발한다.
사전 학습된 언어 모델을 재훈련 없이 후처리하는 자기회귀 디바이싱 방법(A-INLP)을 제안하고 평가한다.
스케일 가능한 맥락 인식 디바이싱을 가능하게 하기 위해 자동으로 편향 민감 토큰을 식별한다.
GPT-2/유사 모델에서 높은 충실도의 텍스트 생성을 유지하면서 편향 완화를 시연한다.

제안 방법

LM 출력에서 로컬(타임스텝의 토큰 수준) 편향과 글로벌(전체 문장) 편향을 구분한다.
다음 토큰 분포에 걸친 로컬 편향을 정량화하기 위해 f-발산(KL 발산, 헐링거 거리)을 사용한다.
생성된 전체 문장에 대해 사전 학습된 감성/관계 분류기로 글로벌 편향을 측정한다.
편향 정의 단어 쌍에서 도출된 학습된 바이어스 부분공간에 토큰 임베딩을 투사하여 편향-민감 토큰을 식별한다.
상관맥락 임베딩에서 편향 정보를 제거하기 위해 널스페이스 투영을 통해 Autoregressive INLP를 적용한다.
공정성과 성능의 균형을 맞추기 위해 디바이즈된 출력과 원래 LM 출력을 혼합하는 적응형 디바이싱 가중치 alpha_t를 계산한다.

실험 결과

연구 질문

RQ1언어 모델 생성에서 로컬 편향과 글로벌 편향은 어떻게 나타나는가?
RQ2단순 템플릿을 넘는 다양한 실제 맥락에서 편향을 신뢰할 수 있게 벤치마크할 수 있는가?
RQ3사후적 자기회귀 디바이싱(A-INLP)이 재훈련 없이 편향을 완화하고 언어 품질에 허용 가능한 영향을 주는가?
RQ4맥락적으로 풍부한 생성에서 편향-민감 토큰을 어떻게 자동으로 식별하고 디바이싱을 안내하는 데 사용할 수 있는가?
RQ5A-INLP를 적용할 때 공정성(편향 완화)과 언어 모델링 성능 간의 트레이드오프는 무엇인가?

주요 결과

사전 학습된 LM에는 편향이 존재하며 로컬 편향과 글로벌 편향으로 특징지어질 수 있다.
다양한 맥락의 편향 분류기가 단순한 템플릿에서 학습된 분류기보다 실제 맥락에 더 잘 일반화된다.
A-INLP는 로컬 및 글로벌 편향 지표를 모두 감소시키고 언어 모델링 성능의 손실이 제한적이면서도 종종 공정성을 향상시킨다.
적응형 alpha_t 학습(A-INLP 튜닝/학습)은 글로벌 regards 작업에서 성능과 공정성을 균형 있게 달성하는 데 있어 정적 디바이싱보다 더 높은 성과를 낸다.
토큰-수준 부분공간 디바이싱(A-subspace)은 추가 성능 비용이 거의 없거나 없으면서 공정성 향상을 달성할 수 있다.
실험 결과 초기 디바이징이 공정성을 개선하면서 생성 품질에 미미한 영향을 주고 공정성-성능 파레토 경계를 넓힌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.