QUICK REVIEW

[논문 리뷰] ERM-MinMaxGAP: Benchmarking and Mitigating Gender Bias in Multilingual Multimodal Speech-LLM Emotion Recognition

Zi Haur Pang, Xiaoxue Gao|arXiv (Cornell University)|2026. 03. 22.

Emotion and Mood Recognition인용 수 0

한 줄 요약

MELD-ST 기반의 다국어 다중모달 SER 벤치마크를 도입하고, Worst-language 성별 격차를 줄이면서 SER 성능을 개선하는 적응형 공정 가중치와 MinMaxGAP 정규화기를 사용하는 ERM-MinMaxGAP라는 공정성 인식 학습 목표를 제안합니다.

ABSTRACT

Speech emotion recognition (SER) systems can exhibit gender-related performance disparities, but how such bias manifests in multilingual speech LLMs across languages and modalities is unclear. We introduce a novel multilingual, multimodal benchmark built on MELD-ST, spanning English, Japanese, and German, to quantify language-specific SER performance and gender gaps. We find bias is strongly language-dependent, and multimodal fusion does not reliably improve fairness. To address these, we propose ERM-MinMaxGAP, a fairness-informed training objective, which augments empirical risk minimization (ERM) with a proposed adaptive fairness weight mechanism and a novel MinMaxGAP regularizer on the maximum male-female loss gap within each language and modality. Building upon the Qwen2-Audio backbone, our ERM-MinMaxGAP approach improves multilingual SER performance by 5.5% and 5.0% while reducing the overall gender bias gap by 0.1% and 1.4% in the unimodal and multimodal settings, respectively.

연구 동기 및 목표

영어, 일본어, 독일어 간 다국어 다중모달 음성 LLM 기반 SER에서 성별 편향을 동기 부여하고 정량화한다.
SER 공정성에 영향을 주는 코퍼스 효과를 분리하기 위한 제어된 벤치마크(MELD-ST)를 제공한다.
Worst-case 차이를 줄이기 위해 Max-language gender-gap 정규화기를 갖춘 ERM과의 학습 목표인 ERM-MinMaxGAP를 제안한다.
다중 모달 융합이 공정성을 일관되게 향상시키지 않는다는 점을 보여주고 제안 방법으로 성능-공정성의 균형이 개선됨을 보여준다.

제안 방법

LoRA를 활용한 음성 LLM 백본(Qwen2-Audio)의 감독 파인튜닝에서 시작한다.
Within-language gender loss gaps와 MaxGAP 정규화기 정의: Delta_l(θ) = |L_{l,F}(θ) − L_{l,M}(θ)| 및 Δ_max(θ) = max_l Δ_l(θ).
MinMaxGAP 정규화기 R_MinMaxGAP(θ) = (Δ_max(θ))^p with p ∈ {1,2} (경험적으로 p=2).
λ에 대한 란주-다중적 업데이트에서 적응형 공정성 가중치를 도입한다: λ^{(k+1)} = Π_[0,λ_max](λ^{(k)} + η(Δ_dev^{(k)} − ε)).
목표들을 결합한다: L_{ERM−MinMaxGAP}^{(k)}(θ) = L_{ERM}(θ) + λ^{(k)} R_MinMaxGAP(θ).
영어, 일본어, 독일어로 구성된 MELD-ST에서 단일모달 및 다중모달 입력을 평가하고 SER(W-F1, ACC)와 성별 편향 격차(TPR, FPR, W-F1, ACC) 및 AVG를 보고한다.

Figure 1: Architecture of the proposed method. The method consists of (1) empirical risk minimization for overall SER improvement, (2) MinMaxGAP for minimizing the language-wise gender gap, and (3) adaptive fairness-weight adjustment for fairness-aware SER.

실험 결과

연구 질문

RQ1다국어 다중모달 SER에서 성별 편향이 영어, 일본어, 독일어 간의 음성 LLM 백본에서 어떻게 나타나는가?
RQ2다중모달 융합이 언어와 설정 간에 성별 편 biases를 일관되게 감소시키는가?
RQ3공정성 인식 학습 목표가 SER 성능을 희생하지 않으면서Worst-language 성별 격차를 줄일 수 있는가?
RQ4학습 중 작업 성능과 공정성의 균형을 맞추는 적응형 공정성 가중치의 효과는 무엇인가?

주요 결과

다국어 다중모달 SER의 성별 편향은 언어와 모델에 따라 크게 다르며, 다중모달 입력이 성별 차이를 일관되게 감소시키지 않는다.
ERM-MinMaxGAP은 단일모달 및 다중모달 설정에서 기초모델 대비 전체 SER 성능을 향상시키며(예: 다국어의 경우 단일모달에서 +5.49 W-F1 및 +9.75 ACC 증가; 다중모달에서 +5.03 W-F1 및 +3.62 ACC 증가) AVG 성별 편향을 감소시킨다.
MinMaxGAP 정규화기는 언어와 모듈레이션 across에서 Worst-language 성별 격차를 감소시켜 성능-공정성 트레이드오프를 강화한다.
적응형 공정성 가중치는 제약된 최적화 기반 업데이트를 통해 고정 정규화 강도보다 공정성-유틸리티 균형을 더 잘 달성한다.
절단 연구로 ERM + MinMaxGAP가 제로샷 베이스라인보다 우수하며, p=2일 때 적응형 λ가 p=1 또는 고정 λ 설정보다 공정성과 SER 결과에 유리하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.