Skip to main content
QUICK REVIEW

[논문 리뷰] Stable Bias: Analyzing Societal Representations in Diffusion Models

Alexandra Sasha Luccioni, Christopher Akiki|arXiv (Cornell University)|2023. 03. 20.
Computational and Text Analysis Methods인용 수 56
한 줄 요약

이 논문은 성별/민족 프롬트를 바꿔 텍스트-투-이미지 확산 시스템의 사회적 편향을 감사하는 방법을 제안하고, Stable Diffusion 및 DALL·E 2에 적용했으며 도구와 데이터셋이 공개되었다.

ABSTRACT

As machine learning-enabled Text-to-Image (TTI) systems are becoming increasingly prevalent and seeing growing adoption as commercial services, characterizing the social biases they exhibit is a necessary first step to lowering their risk of discriminatory outcomes. This evaluation, however, is made more difficult by the synthetic nature of these systems' outputs: common definitions of diversity are grounded in social categories of people living in the world, whereas the artificial depictions of fictive humans created by these systems have no inherent gender or ethnicity. To address this need, we propose a new method for exploring the social biases in TTI systems. Our approach relies on characterizing the variation in generated images triggered by enumerating gender and ethnicity markers in the prompts, and comparing it to the variation engendered by spanning different professions. This allows us to (1) identify specific bias trends, (2) provide targeted scores to directly compare models in terms of diversity and representation, and (3) jointly model interdependent social variables to support a multidimensional analysis. We leverage this method to analyze images generated by 3 popular TTI systems (Dall-E 2, Stable Diffusion v 1.4 and 2) and find that while all of their outputs show correlations with US labor demographics, they also consistently under-represent marginalized identities to different extents. We also release the datasets and low-code interactive bias exploration platforms developed for this work, as well as the necessary tools to similarly evaluate additional TTI systems.

연구 동기 및 목표

  • 생성된 이미지에서 성별과 민족성을 다루기 위한 유연한 프록시 마커 정의.
  • TTI 시스템에서 직업 간 표현을 감사하기 위한 프롬프트 기반 프롬프트를 개발.
  • 출력에서 소외 계층 정체성의 과소대표를 드러내는 정량적 및 정성적 분석 제공.
  • 데이터 셋과 로우-코드 인터랙티브 플랫폼을 제공하여 TTI 시스템에 대한 더 넓은 평가를 가능하게 한다.

제안 방법

  • 미국 BLS의 146개 직업을 포함하는 민족성, 성별 및 직업을 결합하는 패턴으로 프롬프트를 생성한다.
  • 두 가지 모달리티를 분석에 사용: 텍스트 기반(이미지 캡션과 VQA 단어) 및 이미지 기반(이미지 임베딩의 클러스터링)으로 편향을 평가한다.
  • 이미지 임베딩을 24개 영역으로 클러스터링하여 프롬프트의 정체성 구문과 연관된 변이를 포착한다.
  • 군집-영역 분포를 미국 노동통계국(Bureau of Labor Statistics) 인구통계학과 연결하여 다섯분위 기반 비교로 결과를 집계한다.
  • 인터랙티브 도구(Diffusion Bias Explorer, Average Face Comparison Tool, k-NN Explorer) 제공하여 질적 탐색을 지원한다.

실험 결과

연구 질문

  • RQ1직업 관련 프롬프트로 자극될 때 확산 기반 TTI 시스템은 성별과 민족성을 묘사하는 방식에서 어떻게 달라지는가?
  • RQ2TTI 출력이 직업 전반에 걸친 실제 세계의 인구통계 분포를 재현, 재생산, 아니면 악화시키는가?
  • RQ3이미지 임베딩의 클러스터링이 단순 라벨 할당을 넘어 다차원적 편향을 드러낼 수 있는가?
  • RQ4확산 모델의 질적이고 확장 가능한 감사를 촉진할 수 있는 인터랙티브 도구는 무엇인가?

주요 결과

  • 세 시스템 모두 미국 노동 인구통계와 상관관계를 보이지만 소외 계층 정체성을 다양한 정도로 지속적으로 과소대표한다.
  • 캡션 및 VQA 출력은 대다수의 프롬프트에서 성별 표식을 드러내지만 VQA는 캡션보다 성별에 덜 특이적이다(성별 용어를 포함할 때 대략 97.66% vs 45.56%).
  • 정체성-영역 클러스터링은 특정 성별/민족 프롬프트와 연관된 영역을 식별한다; 일부 영역(예: 영역 4)은 주로 백인 남성을 반영하는 반면, 다른 영역은 더 다양한 연상을 보인다.
  • 시스템 전반에 걸쳐 여성과 흑인 개인의 과소대표가 더 다양한 직업에서 더 두드러지며, 다소인 분석에서 DALL·E 2가 가장 강한 편향을 보인다.
  • 이 프레임워크는 추가 TTI 시스템으로 일반화되며, 공유된 사전학습만이 아닌 미세조정과 관련된 가변성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.