QUICK REVIEW

[논문 리뷰] FAIRT2V: Training-Free Debiasing for Text-to-Video Diffusion Models

Haonan Zhong, Wei Song|arXiv (Cornell University)|2026. 01. 28.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

FairT2V는 프롬프트 임베딩에서 인코더 유도 성별 편향을 앵커 기반 구면 기하학적 변환으로 중화하고, 시간적 일관성을 보존하기 위한 동적 디노이징 스케줄을 통해 텍스트-비디오 확산 출력의 편향을 훈련 없이 제거하는 프레임워크를 도입합니다.

ABSTRACT

Text-to-video (T2V) diffusion models have achieved rapid progress, yet their demographic biases, particularly gender bias, remain largely unexplored. We present FairT2V, a training-free debiasing framework for text-to-video generation that mitigates encoder-induced bias without finetuning. We first analyze demographic bias in T2V models and show that it primarily originates from pretrained text encoders, which encode implicit gender associations even for neutral prompts. We quantify this effect with a gender-leaning score that correlates with bias in generated videos. Based on this insight, FairT2V mitigates demographic bias by neutralizing prompt embeddings via anchor-based spherical geodesic transformations while preserving semantics. To maintain temporal coherence, we apply debiasing only during early identity-forming steps through a dynamic denoising schedule. We further propose a video-level fairness evaluation protocol combining VideoLLM-based reasoning with human verification. Experiments on the modern T2V model Open-Sora show that FairT2V substantially reduces demographic bias across occupations with minimal impact on video quality.

연구 동기 및 목표

텍스트-비디오 확산 모델에서 인구통계적 편향의 원천을 식별하고, 프롬프트의 성별 편향에 집중합니다.
프롬프트 의미론과 비디오 생성의 시간적 일관성을 보존하는 훈련 없는 디바이싱 방법을 개발합니다.
비디오 중심의 공정성 평가 프로토콜을 사용하여 편향 감소를 정량화하고 비디오 품질에 대한 영향을 평가합니다.

제안 방법

성별 편향을 텍스트 조건 경로에서 분석하고 중립 프롬프트를 위한 성별 기울기 점수를 정의합니다.
앵커 기반 구면 기하 변환을 도입하여 유니트 초구에서 중립 디바이즈드 프롬프트 임베딩을 얻습니다.
주류/소수 앵커에 대한 각도적 근접성에 기초하여 적응적 디바이징 강도 lambda* 를 계산하고 인구통계 축을 따라 디바이징을 적용합니다.
초기 아이덴티티 형성 단계에서만 디바이징 임베딩을 적용하는 동적 디노이징 스케줄을 사용하여 시간적 일관성을 보존합니다.
VideoLLM 기반의 공정성 평가 프로토콜을 인간 검증으로 보완하여 비디오 수준의 공정성을 평가합니다.
conditioning을 위해 CLIP 기반 텍스트 인코더를 사용하고 인코더 간의 강건성을 CLIP 대 T5와 같은 대체 인코더에서 연구합니다.

Figure 1 : Bias source analysis in text-to-video generation. Neutral prompts are encoded by the text encoder (e.g., CLIP) into embeddings aligned with gender-associated directions, revealing implicit demographic bias in the text-conditioning space.

실험 결과

연구 질문

RQ1텍스트-비디오 확산 모델에서 인구통계적 편향은 어디에서 기원합니까?
RQ2훈련이 필요 없는 임베딩 수준의 디바이싱이 비디오 품질에 악영향을 주지 않으면서 성별 편향을 감소시키는 데 충분합니까?
RQ3동적 스케줄링이 T2V 출력의 편향 완화와 시간적 일관성에 어떤 영향을 미칩니까?
RQ4T2V 시스템을 위한 효과적인 비디오 수준의 공정성 평가 프로토콜은 무엇입니까?
RQ5어떤 텍스트 인코더가 의미 충실도를 해치지 않으면서 강건한 디바이싱을 지원합니까?

주요 결과

T2V의 인구통계적 편향은 주로 neutral 프롬프트에서도 암묵적 성별 연관성을 임베딩하는 사전 학습된 텍스트 인코더에서 기인합니다.
FairT2V는 앵커 기반 구면 기하 변환을 사용하여 직업별 성별 축을 따라 프롬프트 임베딩을 중립 지점으로 유도함으로써 인코더 유도 편향을 감소시킵니다.
동적 디노이징 스케줄은 디바이징을 초기 아이덴티티 형성 단계로 한정하여 시간적 일관성을 보존하고 프레임 수준의 예술적 요소를 감소시킵니다.
훈련 없이 이루어지는 기준선과 비교하여, FairT2V는 편향 감소와 비디오 품질 유지 간의 균형을 특히 시간적 일관성 메트릭에서 더 잘 달성합니다.
CLIP 기반 임베딩은 이 설정에서 T5와 같은 대안보다 디바이싱 효과와 비디오 품질 간의 더 안정적인 트레이드오프를 제공합니다.
VideoLLM과 인간 검증을 포함한 비디오 수준의 공정성 평가가 프레임 수준 방법을 넘어 신뢰할 수 있는 편향 평가를 제공합니다.

Figure 2 : Gender-leaning scores ( Equation 5 ) from the CLIP text encoder for 16 occupations, using the prompt sets in Equation 3 .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.