Skip to main content
QUICK REVIEW

[논문 리뷰] Ethical Considerations for Responsible Data Curation

Jerone T. A. Andrews, Dora Zhao|arXiv (Cornell University)|2023. 02. 07.
Privacy-Preserving Technologies in Data인용 수 12
한 줄 요약

본 논문은 ante hoc, 도메인-특정 추천을 제시하여 목적, 동의/개인정보 보호, 다양성에 중점을 두고 인간 중심 컴퓨터 비전 평가 데이터셋을 선제적으로 큐레이션하는 과정을 다루며, 개인정보 보호와 편향 문제에 대응한다. 사전 큐레이션 체크리스트와 윤리적 데이터 실천에 대한 구체적 가이드를 제공한다.

ABSTRACT

Human-centric computer vision (HCCV) data curation practices often neglect privacy and bias concerns, leading to dataset retractions and unfair models. HCCV datasets constructed through nonconsensual web scraping lack crucial metadata for comprehensive fairness and robustness evaluations. Current remedies are post hoc, lack persuasive justification for adoption, or fail to provide proper contextualization for appropriate application. Our research focuses on proactive, domain-specific recommendations, covering purpose, privacy and consent, and diversity, for curating HCCV evaluation datasets, addressing privacy and bias concerns. We adopt an ante hoc reflective perspective, drawing from current practices, guidelines, dataset withdrawals, and audits, to inform our considerations and recommendations.

연구 동기 및 목표

  • HCCV 데이터셋 큐레이션의 개인정보 보호 및 편향 문제와 선제적 도메인 특화 지침의 필요성 강조.
  • HCCV 데이터셋을 위한 목적, 동의/개인정보 보호, 다양성을 포괄하는 ante hoc 윤리적 고려사항 개발.
  • 윤리적 데이터셋 구성 및 문서화를 안내하기 위한 실용적 권고안과 사전 큐레이션 체크리스트를 제시한다.

제안 방법

  • 현행 관행, 지침, 철회, 감사로부터의 통찰을 종합하여 윤리적 고려사항을 도출한다.
  • 권고안을 목적, 동의/개인정보 보호, 다양성의 세 축으로 구성한다.
  • 책임 있는 데이터 큐레이션을 운영화하기 위한 구체적인 사전 큐레이션 질문과 체크리스트(Appendix A)를 제안한다.
  • 사후 대응보다는 조기에 도메인 특화적이고 맥락 인식적인 데이터 설계 관행을 촉진한다.

실험 결과

연구 질문

  • RQ1HCCV 데이터셋 큐레이션이 목적 진술에 의해 어떻게 가이드되어 수집 전의 편향 및 개인정보 침해를 방지할 수 있는가?
  • RQ2공정성 및 강건성 평가를 위한 HCCV 데이터를 윤리적으로 수집·사용하기 위해 필요한 동의 및 개인정보 보호 관행은 무엇인가?
  • RQ3대표성 및 역사적 편향을 완화하기 위해 HCCV 데이터셋에서 다양성을 어떻게 정의하고 구현해야 하는가?
  • RQ4사전 큐레이션 프로세스에 통합될 수 있는 실질적 메커니즘(예: 동의 해지, 체류국가 수집, 비가공화 등)은 윤리를 강화하는가?
  • RQ5현재의 사후적 접근의 한계는 무엇이며, ante hoc 지침이 공정성과 강건성을 어떻게 개선할 수 있는가?

주요 결과

  • 현재의 HCCV 데이터 관행은 종종 개인정보 보호 및 편향 문제를 간과하여 해롭고 데이터셋 철회로 이어진다.
  • 공정성 인식 데이터셋은 드물고 종종 HCCV 응용과 과제가 일치하지 않아 편향 평가를 복잡하게 한다.
  • 목적, 동의/개인정보 보호, 다양성에 중심을 둔 선제적 권고가 초기부터 윤리적이고 강건한 데이터 큐레이션을 안내할 수 있다.
  • 윤리적 고려사항을 큐레이터가 실행 가능한 질문으로 전환하기 위한 사전 큐레이션 체크리스트가 제공된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.