QUICK REVIEW

[논문 리뷰] Web Scraping for Research: Legal, Ethical, Institutional, and Scientific Considerations

Megan A. Brown, Andrew Gruen|arXiv (Cornell University)|2024. 10. 30.

Wikis in Education and Collaboration인용 수 5

한 줄 요약

이 동료 심사를 거치지 않은 작업 논문은 사회과학 연구에서 웹 스크래핑에 대한 포괄적 프레임워크를 제시하며, 법적, 윤리적, 제도적, 과학적 고려사항을 개괄하고 위험을 완화하고 엄격성을 높이기 위한 지침을 제공합니다.

ABSTRACT

Scientists across disciplines often use data from the internet to conduct research, generating valuable insights about human behavior. However, as generative AI relying on massive text corpora becomes increasingly valuable, platforms have greatly restricted access to data through official channels. As a result, researchers will likely engage in more web scraping to collect data, introducing new challenges and concerns for researchers. This paper proposes a comprehensive framework for web scraping in social science research for U.S.-based researchers, examining the legal, ethical, institutional, and scientific factors that researchers should consider when scraping the web. We present an overview of the current regulatory environment impacting when and how researchers can access, collect, store, and share data via scraping. We then provide researchers with recommendations to conduct scraping in a scientifically legitimate and ethical manner. We aim to equip researchers with the relevant information to mitigate risks and maximize the impact of their research amidst this evolving data access landscape.

연구 동기 및 목표

제한된 데이터 환경에서 스크래핑을 통한 데이터 접근이 진화함에 따라 보다 명확한 가이드라인의 필요성을 촉구한다.
스크래핑의 정의와 이를 공식 API 및 크롤링과 구별한다.
스크래핑 시 연구자가 고려해야 할 법적, 윤리적, 제도적, 과학적 요인을 포함하는 프레임워크를 제공한다.
과학적으로 합법적이고 윤리적인 방식으로 스크래핑을 수행하기 위한 권고사항과 실용적 체크리스트를 제공한다.

제안 방법

스크래핑과 조사 메커니즘의 정의(전통적 스크래핑, 문서화되지 않은 API 스크래핑, 브라우저 플러그인 스크래핑).
계약법, 법령, 프라이버시, 데이터 접근 법률 등 법적 고려사항을 사례와 판례 참조와 함께 분석한다.
공통 규칙(Common Rule)에 따른 윤리적 고려사항 및 공개 데이터와 동의에 관한 논쟁을 다룬다.
대학 환경에 관련된 제도적 요인과 이해관계자의 역할을 개요한다.
스캐핑 프로젝트의 법적 및 윤리적 위험을 완화하기 위한 프레임워크와 실행 가능한 지침을 제공한다.

실험 결과

연구 질문

RQ1사회과학 연구를 위해 웹을 스크래핑할 때 연구자가 고려해야 할 법적, 윤리적, 제도적 및 과학적 요인은 무엇인가?
RQ2연구자들이 현재 및 진화하는 데이터 접근 환경에서 과학적으로 엄밀하고 윤리적으로 타당한 방식으로 스크래핑을 수행하기 위해 어떻게 탐색할 수 있는가?
RQ3데이터 수집 방법으로 스크래핑을 사용할 때 연구자들이 위험을 완화하는 데 도움이 되는 실용적인 권고와 체크리스트는 무엇인가?

주요 결과

스크래핑은 (전통적 스크래핑, 문서화되지 않은 API, 브라우저 플러그인) 등 여러 메커니즘을 통해 발생하며 각각 고유한 법적·윤리적 함의를 가진다.
계약법, CFAA, 프라이버시/데이터 보호, EU DSA와 같은 데이터 접근 제도 등 법률의 파편화로 인해 관할 구역 간에 스크래핑에 대한 위험이 비균일하게 발생한다.
사법부는 반스크래핑 집행에서 사용자 계약(브라우즈랩(browsewrap) 대 클릭랩(clickwrap))을 점점 더 엄격히 검토해 공개 데이터에 의존하는 연구자들에게 영향을 미친다.
프라이버시 법률, 특히 GDPR은 도전과제를 제시하지만 위험을 완화하고 데이터 최소화를 달성하면 연구자에게 우호적인 면제도 있다.
EU DSA와 같은 데이터 접근 제도는 정책 관련 연구를 위해 검증된 연구자가 플랫폼 데이터에 접근하도록 하는 방향으로 이동하고 있어 규제 변화의 신호를 나타낸다.
스크래핑의 윤리는 공공 데이터 사용과 프라이버시, 동의, 개인 및 커뮤니티에 미칠 수 있는 잠재적 위해를 균형 있게 고려해야 하며, 특히 관계형 데이터 및 취약 계층에 대해 그렇다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.