[논문 리뷰] Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy
이 논문은 ImageNet의 person 서브트리에서 발생하는 편향의 세 가지 근본 원인을 규명하고 이를 해결한다: 정체된 WordNet 개념, 시각적 특성이 없는 시냅스, 그리고 인구 집단 간 이미지 표현의 불균형. 공공의 이미지 가능성과 인구 통계적 특성에 대한 커뮤니티 기반 평가를 통해 부적절하고 이미지로 표현하기 어려운 시냅스를 걸러내고 나머지 분포를 균형 잡음으로써, 후속 시각 모델을 위한 공정하고 더 잘 대표되는 ImageNet의 하위집합을 구축한다.
Computer vision technology is being used by many but remains representative of only a few. People have reported misbehavior of computer vision models, including offensive prediction results and lower performance for underrepresented groups. Current computer vision models are typically developed using datasets consisting of manually annotated images or videos; the data and label distributions in these datasets are critical to the models' behavior. In this paper, we examine ImageNet, a large-scale ontology of images that has spurred the development of many modern computer vision methods. We consider three key factors within the "person" subtree of ImageNet that may lead to problematic behavior in downstream computer vision technology: (1) the stagnant concept vocabulary of WordNet, (2) the attempt at exhaustive illustration of all categories with images, and (3) the inequality of representation in the images within concepts. We seek to illuminate the root causes of these concerns and take the first steps to mitigate them constructively.
연구 동기 및 목표
- 실세계 응용에서 모델의 부당한 행동을 유도할 수 있는 ImageNet person 서브트리의 체계적 편향을 조사하기 위해.
- 편향의 세 가지 근본 원인을 분석하기 위해: 정체된 WordNet 개념 어휘, 비시각적 시냅스, 그리고 인구 집단 간 불균형한 이미지 표현.
- 공정성과 대표성을 향상시키기 위해 필터링과 재균형 조정을 수행하는 체계적이고 데이터 기반의 접근 방식을 제안하기 위해.
- 향후 연구를 위해 공개 가능한, 개선된 인구 통계적 및 이미지 가능성 평가가 포함된 ImageNet의 정제된 하위집합을 제공하기 위해.
제안 방법
- 편향성 여부를 판단하기 위해 간단한 인터페이스를 사용해 내부 평가를 수행하여 1,593개의 시냅스를 부적절한 것으로, 1,239개를 안전한 것으로 분류함으로써 커뮤니티 기반 평가의 노이즈를 방지함.
- 이미지 가능성 점수를 추정하기 위해 동적 평가 알고리즘을 적용함: 이전 평가의 평균 ± 표준편차 내에서 연속으로 세 번의 새로운 평가가 수렴할 때까지 평가를 수집함.
- 골드 표준 질문(이미지 가능: 5개, 비이미지 가능: 1개)에서 루트 평균 제곱 오차(RMSE) ≥ 2.0인 작업자들을 제외함으로써 품질 제어를 실시함.
- 각 시냅스에 대해 다수의 작업자 평가를 평균화하여 안정적인 이미지 가능성 점수를 산출함. 모호한 개념의 경우 알고리즘이 모호성에 대응해 더 많은 평가를 수집함.
- 이미지 가능성 외에도 인구 통계적 특성(인종, 성별, 연령)을 커뮤니티 기반으로 평가하기 위해 전용 인터페이스를 사용하여 표현 불균형을 분석함.
- 부적절하고 이미지로 표현하기 어려운 시냅스를 걸러내고, 다양성과 대표성을 우선시하는 방식으로 나머지 데이터셋의 분포를 재균형 조정함.
실험 결과
연구 질문
- RQ1정체된 WordNet 개념과 비시각적 시냅스는 ImageNet의 person 서브트리에서 어떻게 편향을 유발하는가?
- RQ2인종, 성별, 연령과 같은 보호 대상 속성에 따라 person 서브트리의 이미지 표현이 어느 정도 불균형한가?
- RQ3체계적인 걸러내기 및 재균형 조정 과정이 대규모 시각 데이터셋의 공정성과 대표성 향상에 기여할 수 있는가?
- RQ4이미지 가능성과 부적절성 평가의 정제가 최종 데이터셋 하위집합의 품질과 활용 가능성에 어떤 영향을 미치는가?
- RQ5동적이고 적응형 평가 수집 방식은 이미지 가능성과 같은 주관적 평가의 신뢰도를 어떻게 향상시킬 수 있는가?
주요 결과
- 저자들은 person 서브트리에서 1,593개의 부적절한 시냅스와 1,239개의 안전하고 이미지로 표현 가능한 시냅스를 식별하여, 더 공정한 데이터셋의 기초를 마련함.
- 이미지 가능성에 대한 평균 평가 수는 8.8개였고, 72%의 시냅스가 10개 이내의 평가로 충분히 수렴함을 확인하여 동적 알고리즘의 효율성을 입증함.
- 품질 제어 메커니즘이 고오차 작업자(RMSE ≥ 2.0)를 성공적으로 걸러내어 이미지 가능성 평가의 신뢰도를 향상시킴.
- 최종 데이터셋은 개선된 인구 통계적 및 이미지 가능성 평가가 포함된 정제된, 균형 잡힌 ImageNet person 서브트리 하위집합을 포함함.
- 이 연구는 대규모 데이터셋의 편향이 데이터 불균형 외에도 온톨로지 자체의 개념적·어휘적 제약에서 기인할 수 있음을 입증함.
- 제안된 방법은 다른 시각 데이터셋에도 적용 가능한 체계적이고 확장 가능한 데이터셋 정제 접근 방식을 가능하게 함으로써 공정성과 대표성 향상에 기여함.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.