[논문 리뷰] "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters
이 논문은 LLM(ChatGPT와 Alpaca)이 생성한 편지에서 어휘 내용 및 언어 스타일의 성 편향을 분석하고, 맥락 기반 프롬프트에서의 환각에 편향이 어떻게 전파되는지 포함하여 성 편향을 분석한다.
Large Language Models (LLMs) have recently emerged as an effective tool to assist individuals in writing various types of content, including professional documents such as recommendation letters. Though bringing convenience, this application also introduces unprecedented fairness concerns. Model-generated reference letters might be directly used by users in professional scenarios. If underlying biases exist in these model-constructed letters, using them without scrutinization could lead to direct societal harms, such as sabotaging application success rates for female applicants. In light of this pressing issue, it is imminent and necessary to comprehensively study fairness issues and associated harms in this real-world use case. In this paper, we critically examine gender biases in LLM-generated reference letters. Drawing inspiration from social science findings, we design evaluation methods to manifest biases through 2 dimensions: (1) biases in language style and (2) biases in lexical content. We further investigate the extent of bias propagation by analyzing the hallucination bias of models, a term that we define to be bias exacerbation in model-hallucinated contents. Through benchmarking evaluation on 2 popular LLMs- ChatGPT and Alpaca, we reveal significant gender biases in LLM-generated recommendation letters. Our findings not only warn against using LLMs for this application without scrutinization, but also illuminate the importance of thoroughly studying hidden biases and harms in LLM-generated professional documents.
연구 동기 및 목표
- LLMs를 사용하여 전문적 참조 편지를 생성하는 데 있어 공정성에 대한 우려를 고취시키다.
- 두 가지 생성 설정인 Context-Less Generation (CLG)와 Context-Based Generation (CBG)에서 성 편향을 정의하고 측정한다.
- 생성된 편지에서 어휘 내용, 언어 스타일, 환각 편향의 편향을 조사한다.
- 두 가지 인기 LLMs(ChatGPT와 Alpaca)을 사용하여 편향 패턴을 벤치마크하고 사회과학 문헌에 기반한 평가 파이프라인을 제안한다.
제안 방법
- 두 가지 생성 설정: Context-Less Generation (CLG)와 Context-Based Generation (CBG).
- 편향 정의를 어휘 내용(word choices)과 언어 스타일(formality, positivity, agency)로 나눈다.
- 성별 고정관념 특성 어휘를 이용한 어휘 편향에 대한 Odds Ratio (OR) 분석.
- 세 가지 언어 스타일 지표: formality, positivity, and agentic language, 성별 차이를 평가하기 위한 t-검정을 포함한다.
- Context-Sentence NLI를 통한 환각 편향 탐지, 환각된 내용과 전체 생성 텍스트를 비교한다.
- ChatGPT와 Alpaca를 대상으로 모델 및 프롬프트 기반 실험으로 평가 파이프라인을 구현했다.

실험 결과
연구 질문
- RQ1CLG 및 CBG 설정에서 LLM이 생성한 참조 편지가 어휘 내용과 언어 스타일에서 성 편향을 보이는가?
- RQ2어휘 선택 및 문체 특징에서 편향은 어떻게 나타나며, 환각된 내용이 이러한 편향을 전파하거나 증폭시키는가?
- RQ3ChatGPT와 Alpaca가 전문 편지 생성 및 환각에서 성 편향에 동일하게 취약한가?
주요 결과
- LLMs는 성별 편향된 어휘 두드러짐을 보이며, 남자 편지에서 남성 관련 특성이 더 두드러지고 여자 편지에서 여성 특성이 더 두드러진다.
- 언어 스타일 편향은 남성이 더 형식적이고 긍정적이며 주도적 언어를 더 많이 받는 것을 나타내며, 이는 이전의 사회과학 연구 결과와 일치한다.
- 환각 분석은 생성된 환각 내용에 성별 편향이 있음을 드러내며, ChatGPT와 Alpaca 모두에서 편향의 전파 및 증폭을 보인다.
- 전기/biographies를 이용한 Context-based generation (CBG) 역시 성별이 드러나는 언어 패턴을 보이며, 입력 설명을 넘는 편향이 있음을 시사한다.
- 본 연구는 LLM생성 전문 문서에서 편향을 식별하고 정량화하기 위한 확장 가능한 프레임워크(testbed, metrics, prompts)를 제공합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.