QUICK REVIEW

[논문 리뷰] FairBatch: Batch Selection for Model Fairness

Yuji Roh, Kangwook Lee|arXiv (Cornell University)|2020. 12. 03.

Privacy-Preserving Technologies in Data참고 문헌 46인용 수 35

한 줄 요약

FairBatch는 데이터 전처리나 내부 모델 학습을 바꾸지 않고도 외부 이중 최적화를 통해 미니배치 샘플링의 가중치를 적응적으로 재조정하여 그룹 공정성(동등한 기회, 등화된 가능도, 인구통계적 형평성)을 향상시키며, 사전 학습 모델의 공정성 향상을 위한 미세 조정도 가능하게 한다.

ABSTRACT

Training a fair machine learning model is essential to prevent demographic disparity. Existing techniques for improving model fairness require broad changes in either data preprocessing or model training, rendering themselves difficult-to-adopt for potentially already complex machine learning systems. We address this problem via the lens of bilevel optimization. While keeping the standard training algorithm as an inner optimizer, we incorporate an outer optimizer so as to equip the inner problem with an additional functionality: Adaptively selecting minibatch sizes for the purpose of improving model fairness. Our batch selection algorithm, which we call FairBatch, implements this optimization and supports prominent fairness measures: equal opportunity, equalized odds, and demographic parity. FairBatch comes with a significant implementation benefit -- it does not require any modification to data preprocessing or model training. For instance, a single-line change of PyTorch code for replacing batch selection part of model training suffices to employ FairBatch. Our experiments conducted both on synthetic and benchmark real data demonstrate that FairBatch can provide such functionalities while achieving comparable (or even greater) performances against the state of the arts. Furthermore, FairBatch can readily improve fairness of any pre-trained model simply via fine-tuning. It is also compatible with existing batch selection techniques intended for different purposes, such as faster convergence, thus gracefully achieving multiple purposes.

연구 동기 및 목표

데이터나 모델 구조를 바꾸지 않고 배치 선택만 수정하여 ML에서의 공정성 통합을 더 쉽게 동기 부여하고 가능하게 한다.
배치 샘플링을 내부 모델 학습에 영향을 주는 외부 최적화기로 취급하는 이중 최적화 프레임워크를 개발한다.
일반 프레임워크(PyTorch 등)와 호환되면서도 실용적이고 최소한의 침습을 가지는 FairBatch 구현을 제공한다.
합성 및 실제 데이터셋에서 여러 공정성 개념(EO, ED, DP)에 걸친 FairBatch의 효과를 입증한다.
FairBatch가 사전 학습된 모델의 공정을 미세 조정을 통해 개선할 수 있으며 다른 배치 선택 기법과 공존할 수 있음을 보여준다.

제안 방법

내부 문제를 표준 SGD 학습으로 놓고 배치 선택을 이중 프레임워크에서 외부 최적화로 형식화한다.
그룹 간 격차를 최소화하는 공정성 지향 외부 목적을 정의한다. 예: |L_{y,z}(w_λ) − L_{y,⊥}(w_λ)| 또는 그룹 간 최대 불평등 목표.
다양한 민감한 그룹 계층에 대한 샘플링 확률을 제어하는 1차 또는 다차원 외부 변수 λ 를 도입한다.
1차의 경우( d=1 )에 대해 간단한(경사유사) λ 업데이트 규칙을 제공하고 수학적으로 수렴을 입증한다.
다차원 설정(d>1)으로 외부 업데이트를 확장하되 헤시안 계산의 비용을 피하기 위해 서브그래디언트 근사를 사용한다.
수렴 가속화를 위한 중요도 가중치 방식과 결합하여 기존 배치 선택 방법과의 호환성을 보인다.

실험 결과

연구 질문

RQ1배치 선택을 이중 최적화로 프레이밍한 적응형 배치 선택이 표준 SGD 학습 동안 일반적인 그룹 공정성 기준(동등한 기회, 등화된 가능도, 인구통계적 형평성)을 시행할 수 있는가?
RQ2외부 최적화 변수(샘플링 확률)를 어떻게 업데이트하여 전체 정확도를 해치지 않으면서 그룹 간 격차를 줄일 수 있는가?
RQ3FairBatch가 합성 및 실제 데이터셋에서 효과적이며 사전 학습 모델이나 다른 배치 선택 기법과 호환되는가?
RQ4제안된 1차 외부 최적화에 대한 이론적 보장(예: 준볼록성 및 수렴)과 다차원 경우의 실제 성능은 어떠한가?
RQ5기존 ML 파이프라인에 최소한의 코드 변경으로 FairBatch를 얼마나 쉽게 통합할 수 있는가?

주요 결과

데이터셋	방법	정확도	EO 격차	에포크
Synthetic	LR	0.885 ± 0.000	0.115 ± 0.000	400
Synthetic	Cutting	0.858 ± 0.001	0.028 ± 0.002	800
Synthetic	RW	0.858 ± 0.000	0.020 ± 0.000	800
Synthetic	LBC	0.858 ± 0.001	0.022 ± 0.000	11200
Synthetic	FC	0.833 ± 0.001	0.007 ± 0.000	700
Synthetic	AD	0.837 ± 0.010	0.026 ± 0.007	200
Synthetic	AdaFair	0.868 ± 0.000	0.043 ± 0.001	16000
Synthetic	FairBatch	0.855 ± 0.000	0.012 ± 0.001	300
COMPAS	LR	0.681 ± 0.002	0.239 ± 0.006	300
COMPAS	Cutting	0.674 ± 0.005	0.055 ± 0.018	600
COMPAS	RW	0.685 ± 0.000	0.137 ± 0.000	300
COMPAS	LBC	0.673 ± 0.002	0.031 ± 0.006	3900
COMPAS	FC	0.656 ± 0.006	0.059 ± 0.028	100
COMPAS	AD	0.683 ± 0.001	0.067 ± 0.029	300
COMPAS	AdaFair	0.664 ± 0.004	0.018 ± 0.004	9600
COMPAS	FairBatch	0.681 ± 0.001	0.022 ± 0.005	100
AdultCensus	LR	0.845 ± 0.001	0.125 ± 0.001	300
AdultCensus	Cutting	0.802 ± 0.002	0.054 ± 0.007	600
AdultCensus	RW	0.835 ± 0.001	0.134 ± 0.006	100
AdultCensus	LBC	0.841 ± 0.003	0.011 ± 0.003	6300
AdultCensus	FC	0.844 ± 0.001	0.021 ± 0.004	300
AdultCensus	AD	0.841 ± 0.003	0.016 ± 0.005	400
AdultCensus	AdaFair	0.844 ± 0.001	0.038 ± 0.004	9000
AdultCensus	FairBatch	0.844 ± 0.001	0.011 ± 0.003	400

FairBatch는 합성 및 실제 데이터셋에서 정확도를 유지하면서 최첨단 공정성 방법과 비교해 동등한 혹은 더 나은 공정성(EO, ED, DP)을 달성한다.
합성 데이터, COMPAS, AdultCensus에서 FairBatch는 대략 동하거나 더 빠른 수렴(에포크 수 적음)을 보이며 공정성 격차를 줄인다.
FairBatch는 일부 기준선과 달리 정확도를 해치지 않으면서 UTKFace와 같은 예시에서 ResNet18/GoogLeNet으로 미세 조정을 통해 사전 학습된 모델의 공정을 개선할 수 있다.
PyTorch의 배치 샘플러에 작은 변경(한 줄의 수정)만으로도 실용적으로 구현하기 쉽다.
손실 기반 가중치 부여와 같은 다른 배치 선택 전략과 결합하여 수렴을 가속하면서 공정성 혜택을 유지할 수 있다.
AdaFair와 비교했을 때 유사한 공정성 향상을 달성하지만 단일 모델 학습으로도 가능하여 속도 이점이 크다(보고된 실험에서 22.5–96배 빠름).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.