QUICK REVIEW

[논문 리뷰] Data Representativity for Machine Learning and AI Systems

Line Katrine Harder Clemmensen, Rune D. Kjærsgaard|arXiv (Cornell University)|2022. 03. 09.

Bayesian Modeling and Causal Inference인용 수 21

한 줄 요약

본 논문은 ML/AI에서 데이터 대표성 개념을 조사하고, 세 가지 측정 가능한 개념(반영, 커버리지, 하위집단 대표성)을 도입하며, 데이터 대표성을 문서화하기 위한 프레임워크를 제안한다.

ABSTRACT

Data representativity is crucial when drawing inference from data through machine learning models. Scholars have increased focus on unraveling the bias and fairness in models, also in relation to inherent biases in the input data. However, limited work exists on the representativity of samples (datasets) for appropriate inference in AI systems. This paper reviews definitions and notions of a representative sample and surveys their use in scientific AI literature. We introduce three measurable concepts to help focus the notions and evaluate different data samples. Furthermore, we demonstrate that the contrast between a representative sample in the sense of coverage of the input space, versus a representative sample mimicking the distribution of the target population is of particular relevance when building AI systems. Through empirical demonstrations on US Census data, we evaluate the opposing inherent qualities of these concepts. Finally, we propose a framework of questions for creating and documenting data with data representativity in mind, as an addition to existing dataset documentation templates.

연구 동기 및 목표

학제간 소스에서 대표 표본의 다양한 정의와 그것들이 ML/AI 추론에 대한 관련성 검토.
대표성 개념을 수학적 측정과 연결하고 평가를 위한 세 가지 측정 가능한 개념을 제안한다.
실제 데이터를 사용하여 커버리지(다양성)와 인구 분포 모방 개념이 실제에서 어떻게 작동하는지 실증 데이터를 사용해 시연한다.
현존하는 데이터 세트 문서화를 보완하여 대표성을 염두에 두고 데이터를 생성하고 문서화하기 위한 질문 프레임워크를 제안한다.
ML/AI에서 데이터 대표성에 대한 향후 연구 방향을 제시한다.

제안 방법

대표 표본 추출에 관한 문헌 조사를 수행하고 이러한 개념을 ML/AI 실천과 연계한다.
대표성의 세 가지 측정 가능한 개념을 도입하고 기존 개념들을 이에 매핑한다.
미국 인구조사 데이터를 사용하여 대표성의 상충되는 개념들을 실증적으로 비교한다.
NeurIPS 2021 데이터셋/벤치마크와 ICCV 2021 데이터셋이 대표성 개념을 어떻게 반영하는지 검토한다.
데이터시트 기반의 질문 프레임워크를 제안하여 데이터 대표성을 문서화한다.
ML/AI를 위한 데이터 대표성의 새로운 연구 방향을 제안한다.

실험 결과

연구 질문

RQ1AI/ML 문헌에서 발견되는 대표 표본의 다양한 개념은 무엇이며 이들이 추론과 어떻게 관련되는가?
RQ2구체적이고 구현 가능한 개념을 사용하여 데이터 대표성을 어떻게 측정할 수 있는가?
RQ3ML/AI 데이터셋에서 커버리지(다양성)와 분포 모방 표현 간의 trade-off는 무엇인가?
RQ4데이터 대표성을 문서화하는 프레임워크가 투명성과 재현성을 어떻게 향상시킬 수 있는가?

주요 결과

대표 표본에 대한 다수의 개념을 식별하고 용어의 애매모함을 강조했다.
세 가지 측정 가능한 개념을 제안했다: 반영(인구 모방), 커버리지(다양성 기반), 하위집단 대표성(클러스터 기반).
인구 모방(반영)과 다양성 기반 커버리지 개념의 서로 반대되는 특성을 미국 인구조사 유형 데이터에 대한 실증 분석을 통해 시연했다.
NeurIPS 2021 데이터셋과 ICCV 2021 데이터셋을 검토하여 대표성 개념이 실제에 어떻게 나타나는지 설명했다.
데이터시트용 질문 프레임워크를 통해 데이터 대표성을 문서화하는 방법을 제시하고 향후 연구 방향을 논의했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.