Skip to main content
QUICK REVIEW

[논문 리뷰] The Dataset Nutrition Label (2nd Gen): Leveraging Context to Mitigate Harms in Artificial Intelligence

Kasia S. Chmielinski, Sarah Newman|arXiv (Cornell University)|2022. 01. 10.
Nutrition, Genetics, and Disease인용 수 28
한 줄 요약

이 논문은 데이터 과학자가 사용 사례 및 예측에 맞춰 정보를 조정함으로써 데이터 세트의 적합성을 평가하고 AI의 해를 완화하는 context-aware, interactive 도구인 Dataset Nutrition Label의 2세대를 제시한다.

ABSTRACT

As the production of and reliance on datasets to produce automated decision-making systems (ADS) increases, so does the need for processes for evaluating and interrogating the underlying data. After launching the Dataset Nutrition Label in 2018, the Data Nutrition Project has made significant updates to the design and purpose of the Label, and is launching an updated Label in late 2020, which is previewed in this paper. The new Label includes context-specific Use Cases &Alerts presented through an updated design and user interface targeted towards the data scientist profile. This paper discusses the harm and bias from underlying training data that the Label is intended to mitigate, the current state of the work including new datasets being labeled, new and existing challenges, and further directions of the work, as well as Figures previewing the new label.

연구 동기 및 목표

  • 자동 화된 의사결정 시스템에서 해를 완화하기 위해 학습 데이터를 면밀히 검토해야 할 필요성을 고무한다.
  • 2세대 Dataset Nutrition Label의 설계, 방법론, 구성요소를 설명한다.
  • 맥락에 특화된 Use Case와 Alerts가 실무자들을 관련된 데이터 품질 및 편향 고려사항으로 어떻게 안내하는지 보여준다.
  • 레이블의 실제 적용 가능성을 보여주기 위해 프로토타입과 협력자를 제시한다.

제안 방법

  • Overview, Use Cases & Alerts, Dataset Info의 세 패널로 구성된 새로운 대화형 GUI를 설명한다.
  • 선택된 시나리오에 맞춘 Alerts와 FYI를 트리거하기 위해 Use Case와 Prediction의 선택을 가능하게 한다.
  • Datasheets for Datasets 및 관련 프레임워크에서 가져온 Dataset Info 창을 통해 정성적 문서를 제공한다.
  • 변경되는 데이터세트에 대한 레이블 적용 맥락을 제공하기 위해 타임스탬프가 찍힌 Date 필드를 포함한다.
  • 실제 데이터셋에서 프로토타입을 시연하고 더 넓은 데이터셋을 위한 향후 자동 레이블 생성을 계획한다.

실험 결과

연구 질문

  • RQ1데이터셋 영양 라벨을 사용 사례별 위험과 완화 필요성에 맞게 어떻게 조정할 수 있는가?
  • RQ2ADS 사용 사례를 다루는 데이터 과학자들에게 지침을 개선하는 라벨의 어떤 디자인 변화가 있는가?
  • RQ32세대 라벨은 1세대와 비교하여 사용성 및 맥락화에 어떻게 대응하는가?
  • RQ4확장 가능한 자동 라벨 생성을 위한 실질적 도전과제와 향후 방향은 무엇인가?

주요 결과

  • 2세대 라벨은 실무자의 특정 사용 사례 및 예측에 맞춘 정보를 제공하는 Use Cases & Alerts가 있는 대화형 GUI를 도입한다.
  • 라벨은 세 패널을 통해 정보를 제시하고 선택한 사용 사례에 초점을 맞춘 Alerts 및 FYIs를 통합함으로써 맥락성과 사용성을 강조한다.
  • Dataset Info 창을 통한 정성적 문서는 Datasheets for Datasets 및 관련 프레임워크를 활용하여 출처 및 수집 세부 정보를 제공한다.
  • 프로토타입은 COVID Tracking Project, 뉴욕시의 퇴거 및 주거 데이터, 멜라노마 이미지 데이터 세트(ISIC 2018/2020)와 같은 데이터 세트에서 시연된다.
  • 연구는 변경되는 데이터세트, 독점적 데이터 접근, 정성적 내용의 정량적 내용 대비 전환과 같은 도전과제를 지적하며, 레이블 생성을 자동화하고 사용 사례 비교를 가능하게 하는 향후 작업을 계획한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.