Skip to main content
QUICK REVIEW

[논문 리뷰] Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus

Jack Bandy, Nicholas Vincent|arXiv (Cornell University)|2021. 05. 11.
Topic Modeling참고 문헌 18인용 수 33
한 줄 요약

이 논문은 datasheet 프레임워크를 BookCorpus에 적용하여 그 동기, 구성, 수집 및 잠재적 결함을 문서화하고, 저작권, 중복 및 장르 편향 문제를 강조한다.

ABSTRACT

Recent literature has underscored the importance of dataset documentation work for machine learning, and part of this work involves addressing "documentation debt" for datasets that have been used widely but documented sparsely. This paper aims to help address documentation debt for BookCorpus, a popular text dataset for training large language models. Notably, researchers have used BookCorpus to train OpenAI's GPT-N models and Google's BERT models, even though little to no documentation exists about the dataset's motivation, composition, collection process, etc. We offer a preliminary datasheet that provides key context and information about BookCorpus, highlighting several notable deficiencies. In particular, we find evidence that (1) BookCorpus likely violates copyright restrictions for many books, (2) BookCorpus contains thousands of duplicated books, and (3) BookCorpus exhibits significant skews in genre representation. We also find hints of other potential deficiencies that call for future research, including problematic content, potential skews in religious representation, and lopsided author contributions. While more work remains, this initial effort to provide a datasheet for BookCorpus adds to growing literature that urges more careful and systematic documentation for machine learning datasets.

연구 동기 및 목표

  • ML 연구에서 데이터셋 문서화의 필요성을 촉진한다(문서화 빚).
  • 동기, 구성, 수집 및 사용 고려사항을 포착하기 위한 BookCorpus용 구조화된 datasheet를 제공한다.
  • 향후 사용을 안내하기 위해 BookCorpus의 핵심 결함 및 잠재적 윤리적·법적 위험을 식별한다.
  • 데이터셋 거버넌스의 향후 연구 방향 및 더 나은 문서화 관행에 대한 권고를 제공한다.

제안 방법

  • Gebru 등(_datasheet 프레임워크_)를 BookCorpus에 적용하되, 동기, 구성, 수집, 정리, 사용 및 배포에 관한 질문을 포함한다.
  • 원래의 2014년 BookCorpus, BookCorpusOpen(2020/2021), 그리고 Smashwords21 메타데이터 등 BookCorpus의 세 가지 버전을 수집하고 비교한다.
  • 저작권 이슈, 중복 및 장르별 및 종교 표현의 왜곡 등을 체계적으로 분석한다.
  • 수집 프로세스, 라이선스, 동의 및 데이터 주체에 대한 잠재적 영향을 문서화한다.

실험 결과

연구 질문

  • RQ1BookCorpus의 원래 동기와 사용 사례는 무엇이며 누가 그것의 생성을 자금을 지원했는가?
  • RQ2책 수, 단어 수, 장르 측면에서 BookCorpus의 구성은 무엇이며 버전별로 어떻게 달라지는가?
  • RQ3BookCorpus에 존재하는 잠재적 결함과 위험(저작권, 중복, 콘텐츠 민감성, 샘플링 편향)은 무엇인가?
  • RQ4BookCorpus가 얼마나 수집, 정리, 배포 및 유지되었으며 어떤 윤리적 고려가 적용되는가?
  • RQ5이 연구 결과가 현재 및 향후 ML 연구에서 BookCorpus를 사용하는 데 어떤 함의를 갖는가?

주요 결과

  • BookCorpus에 고유한 책이 7,185권에 불과하고 중복으로 식별된 건 2,930건이다.
  • 관찰된 라이선스 진술에 근거하면 많은 책이 저작권 제한을 위반했을 가능성이 있다.
  • 더 새로운 사본과 Smashwords21 상위집합과 비교해 Romance가 현저히 과대표시되는 등 장르 편향이 크게 존재한다.
  • 잠재적으로 문제가 될 수 있는 콘텐츠 및 편향된 종교 표현이 보고되어 주의가 필요하다.
  • 데이터에서 개인 연락처 정보(이메일 주소)가 발견되어 민감성과 개인정보 고려가 필요함을 시사한다.
  • BookCorpus는 공개적으로 유지되지 않으며, 여러 복제 버전이 존재하고(BookCorpusOpen, Smashwords21) 접근이 분산되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.