[논문 리뷰] Towards Accountability for Machine Learning Datasets: Practices from Software Engineering and Infrastructure
본 논문은 ML 데이터셋이 인프라스트럭처적 산물이라고 주장하고, 투명성, 책임성, 그리고 책임 있는 데이터셋 개발을 보장하기 위해 소프트웨어 엔지니어링에서 영감을 받은 엄격하고 수명주기 기반의 문서화 프레임워크를 제안한다.
Rising concern for the societal implications of artificial intelligence systems has inspired demands for greater transparency and accountability. However the datasets which empower machine learning are often used, shared and re-used with little visibility into the processes of deliberation which led to their creation. Which stakeholder groups had their perspectives included when the dataset was conceived? Which domain experts were consulted regarding how to model subgroups and other phenomena? How were questions of representational biases measured and addressed? Who labeled the data? In this paper, we introduce a rigorous framework for dataset development transparency which supports decision-making and accountability. The framework uses the cyclical, infrastructural and engineering nature of dataset development to draw on best practices from the software development lifecycle. Each stage of the data development lifecycle yields a set of documents that facilitate improved communication and decision-making, as well as drawing attention the value and necessity of careful data work. The proposed framework is intended to contribute to closing the accountability gap in artificial intelligence systems, by making visible the often overlooked work that goes into dataset creation.
연구 동기 및 목표
- ML 데이터셋이 가시성과 책임이 요구되는 기술적 인프라로 기능한다는 주장을 제시한다.
- 데이터셋 개발에 소프트웨어 엔지니어링 수명주기 관행을 채택할 것을 권고한다.
- 감사와 검토를 가능하게 하는 특정 산출물 유형을 갖춘 구조화된 문서화 모델을 제안한다.
- 데이터셋 작업의 정치적·공학적 차원과 비선형 수명주기를 강조한다.
제안 방법
- 데이터셋을 인프라스트럭처와 공학적 산출물로 프레이밍하여 책임 필요성을 정당화한다.
- 데이터셋 개발 단계를 소프트웨어 유사 수명주기에 매핑한다(요구사항, 설계, 구현, 테스트, 유지보수).
- 추적 가능성과 책임성을 촉진하기 위해 각 단계에서 문서 유형을 도입한다(Requirements Analysis Documents, Dataset Design Documents, Implementation Diaries, Testing Reports, Maintenance Plans).
- 감사, 다양성 있는 감독, 포스트모텀 등 거버넌스 개념을 제안하여 책임성 격차를 해소한다.
실험 결과
연구 질문
- RQ1데이터셋 개발의 사전, 도중, 사후에 의미 있는 책임성을 가능하게 하기 위해 어떤 정보를 기록해야 하는가?
- RQ2소프트웨어 엔지니어링 관행을 어떻게 적응시켜 ML 데이터셋의 가시성, 소유권, 감사 가능성을 향상시킬 수 있는가?
- RQ3데이터셋 개발 수명주기 전반에 걸쳐 필요한 주요 문서 산출물과 소유권 역할은 무엇인가?
- RQ4데이터셋을 인프라로 보는 개념이 ML의 책임성과 거버넌스에 어떤 영향을 미치는가?
주요 결과
- 데이터셋은 ML 시스템을 가능하게 하는 인프라로 보는 것이 바람직하며, 따라서 의도적이고 서두르지 않는 개발 및 문서화가 필요하다.
- 명시적 소유권과 문서화를 갖춘 비선형적이고 반복적인 데이터셋 개발 수명주기가 책임성 격차를 줄인다.
- 각 수명주기 단계(requirements, design, implementation, testing, maintenance)에 대한 구조화된 문서 세트가 추적 가능성과 책임성을 뒷받침한다.
- 데이터의 노후화, 오류, 맥락 변화에 대처하기 위해 감사, 검토, 지속적 유지보수 계획이 필수적이다.
- 문서화는 편향과 예기치 않은 해를 방지하기 위해 가정, 트레이드오프, 이해관계자 심의를 명시적으로 반영해야 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.