[논문 리뷰] The Impossibility of Fair LLMs
이 논문은 기존 공정성 프레임워크가 대형 언어 모델에 일반화되지 않으며 보편적 공정성 달성은 해결 불가능하다고 주장한다. 맥락 기반 가이드라인과 반복적이고 참여적 설계를 LLM의 공정성에 제시한다.
The rise of general-purpose artificial intelligence (AI) systems, particularly large language models (LLMs), has raised pressing moral questions about how to reduce bias and ensure fairness at scale. Researchers have documented a sort of "bias" in the significant correlations between demographics (e.g., race, gender) in LLM prompts and responses, but it remains unclear how LLM fairness could be evaluated with more rigorous definitions, such as group fairness or fair representations. We analyze a variety of technical fairness frameworks and find inherent challenges in each that make the development of a fair LLM intractable. We show that each framework either does not logically extend to the general-purpose AI context or is infeasible in practice, primarily due to the large amounts of unstructured training data and the many potential combinations of human populations, use cases, and sensitive attributes. These inherent challenges would persist for general-purpose AI, including LLMs, even if empirical challenges, such as limited participatory input and limited measurement methods, were overcome. Nonetheless, fairness will remain an important type of model evaluation, and there are still promising research directions, particularly the development of standards for the responsibility of LLM developers, context-specific evaluations, and methods of iterative, participatory, and AI-assisted evaluation that could scale fairness across the diverse contexts of modern human-AI interaction.
연구 동기 및 목표
- 현 ML 공정성 프레임워크가 LLM에 어떻게 적용되는지 평가하고 근본적 불일치 식별.
- 그룹 공정성, 공정 표현 및 관련 개념을 광범위하고 다모달이며 범용 모델에 적용하는 데의 한계 시연.
- 보편적 보장보다는 특정 사용 사례와 맥락에 초점을 둔 현실적인 공정성 목표 제안.
- LLM 배포에서 피해를 줄이기 위해 개발자 책임과 반복적이고 참여적 설계의 필요성 옹호.
제안 방법
- LMM 맥락에서 그룹 공정성 및 공정 표현과 같은 기존 공정성 프레임워크에 대한 비판적 고찰.
- LLM의 비구조화된 데이터와 만연한 민감 속성으로 인해 FTU가 불가능하다는 주장의 제시.
- 다양한 작업과 인구에 걸친 LLM에 많은 공정성 지표를 적용하는 것이 비적용 가능하거나 해결 불가능하다는 논리적 분석.
- 맥락, 개발자 책임, 이해관계자 참여를 강조하는 가이드라인 개발.
- 훈련 데이터 큐레이션, 지시 학습, 프롬프트 엔지니어링, 개인화, 해석 도구에 대한 시사점 논의.
실험 결과
연구 질문
- RQ1현 공정성 프레임워크를 LLM에 적용할 때 어떤 한계가 나타나는가?
- RQ2그룹 공정성, 반사실상 공정성, 또는 공정 표현이 광범위하고 다모달한 LLM 맥락으로 논리적 또는 실용적으로 확장될 수 있는가?
- RQ3LLM에서 공정성과 피해 감소를 달성하기 위한 현실적이고 사용 사례 특화 가이드라인은 무엇인가?
- RQ4개발자와 사용자 등 이해관계자가 LLM 공정성 문제를 다루는 반복적 설계 과정에 어떻게 참여해야 하는가?
주요 결과
- 민감 속성에 대한 무지성은 텍스트에서 속성을 유추할 수 있는 능력으로 인해 LLM에 대해 실행 불가능하다.
- 공정성 보장은 LLM이 직면하는 다양한 데이터, 작업 및 인구에 일반화되지 않는다.
- 그룹 공정성 및 관련 지표는 LLM의 기본 인구를 정의하기 어렵고 맥락 간 공정성을 보장할 수 없다.
- 개별 개념의 편향 제거는 다른 맥락 특화 관계를 왜곡하는 경우가 많아 보편적 편향 제거 접근은 비현실적이다.
- 공정성은 모델 파이프라인 전체에서 구성되지 않으므로 맥락 특화 공정성은 모델 구성 또는 지침을 통해 도출되어야 한다.
- 세 가지 가이드라인이 등장한다: 맥락을 강조하고, 개발자 책임을 부여하며, 피해 경감을 위한 반복적이고 참여적 설계를 추구한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.