[논문 리뷰] Auditing Disability Representation in Vision-Language Models
본 논문은 15개의 비전-언어 모델을 9개 장애 범주에 걸쳐 감사하기 위한 paired Neutral Prompt vs Disability-Contextualized Prompt 프레임워크를 제시하며, 장애 맥락이 해석 충실도를 저하시킨다는 것을 보여주고, 프롬프트 및 선호도 미세조정을 통해 이를 완화할 수 있음을 시사한다.
Vision-language models (VLMs) are increasingly deployed in socially sensitive applications, yet their behavior with respect to disability remains underexplored. We study disability aware descriptions for person centric images, where models often transition from evidence grounded factual description to interpretation shift including introduction of unsupported inferences beyond observable visual evidence. To systematically analyze this phenomenon, we introduce a benchmark based on paired Neutral Prompts (NP) and Disability-Contextualised Prompts (DP) and evaluate 15 state-of-the-art open- and closed-source VLMs under a zero-shot setting across 9 disability categories. Our evaluation framework treats interpretive fidelity as core objective and combines standard text-based metrics capturing affective degradation through shifts in sentiment, social regard and response length with an LLM-as-judge protocol, validated by annotators with lived experience of disability. We find that introducing disability context consistently degrades interpretive fidelity, inducing interpretation shifts characterised by speculative inference, narrative elaboration, affective degradation and deficit oriented framing. These effects are further amplified along race and gender dimension. Finally, we demonstrate targeted prompting and preference fine-tuning effectively improves interpretive fidelity and reduces substantially interpretation shifts.
연구 동기 및 목표
- 장애 권리 및 저널리즘 표준에 기반한 VLM의 장애 표현에 대한 규범적 평가를 촉진한다.
- 해석적 충실도를 측정하기 위한 전문가 검증된 제로샷 쌍 프롬프트 프레임워크를 개발한다.
- 9개 장애 범주에 걸쳐 15개의 오픈·클로즈드 소스 VLM을 다양하게 벤치마킹한다.
- 모델의 활용도를 유지하면서 해석적 변동을 줄이기 위한 실용적 완화 전략을 제공한다.
제안 방법
- 같은 이미지에 대한 NP와 DP 응답 간의 차이를 장애 편향으로 정의한다.
- PAIRS 합성 이미지 데이터셋을 사용하여 9개 장애 범주에 걸친 통제된 쌍 NP/DP 프롬프트를 가능하게 한다.
- LLM을 판단자로 활용하여 추측적 추론, 고정관념, 프레이밍 등 고차원 편향을 평가한다.
- VADER 감정 분석, Regard, Verbosity 지표로 언어적 저하를 정량화한다.
- 통계적 검정(ANOVA, p<0.05) 및 다중 주석자/LMM 일치를 사용하여 결과를 검증한다.

실험 결과
연구 질문
- RQ1장애 맥락이 반영된 프롬프트가 중립 프롬프트에 비해 VLM 출력의 해석적 변화를 유발하는가?
- RQ2위치 범주별 변화는 어떻게 다르게 나타나며 인종 및 성별과 교차하는가?
- RQ3장애 맥락에서 관찰되는 주요 편향 형태(해석, 고정관념, 프레이밍)는 무엇인가?
- RQ4프롬프트 전략과 선호 기반 미세조정으로 이러한 편향을 output 품질을 손상시키지 않으면서 완화할 수 있는가?
주요 결과
- 장애 맥 Context은 해석 충실도를 지속적으로 저하시켜 추측적 추론 증가, 서사 과장, 정서적 변화가 나타난다.
- Verbosity 및 Interpret 차원에서 모델들 간 가장 큰 저하를 보이며, 경우에 따라 70–90%를 초과하기도 한다.
- 편향 효과는 인종 및 성별 축을 따라 확대되며, 백인 남성이 더 강한 해석적 변화 를 받고 흑인 여성이 더 제한된 서술을 받는다.
- 표적 프롬프트를 통한 완화가 대부분의 모델에서 편향을 상당히 감소시키며 특히 해석 및 프레이밍에서 두드러진다.
- 직접 선호도 최적화(DPO)는 프롟 prompts 단독보다 더 크고 안정적인 편향 감소를 제공하며 해석적 충실도를 크게 향상시킨다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.