[论文解读] Web Scraping for Research: Legal, Ethical, Institutional, and Scientific Considerations
这是一个未经过同行评审的工作论文,提出了社会科学研究中网页抓取的综合框架,概述了法律、伦理、机构和科学方面的考虑,并提供降低风险、提升严谨性的指导。
Scientists across disciplines often use data from the internet to conduct research, generating valuable insights about human behavior. However, as generative AI relying on massive text corpora becomes increasingly valuable, platforms have greatly restricted access to data through official channels. As a result, researchers will likely engage in more web scraping to collect data, introducing new challenges and concerns for researchers. This paper proposes a comprehensive framework for web scraping in social science research for U.S.-based researchers, examining the legal, ethical, institutional, and scientific factors that researchers should consider when scraping the web. We present an overview of the current regulatory environment impacting when and how researchers can access, collect, store, and share data via scraping. We then provide researchers with recommendations to conduct scraping in a scientifically legitimate and ethical manner. We aim to equip researchers with the relevant information to mitigate risks and maximize the impact of their research amidst this evolving data access landscape.
研究动机与目标
- 在数据获取通过抓取演变于受限的数据环境中,激发对更清晰指南的需求。
- 定义抓取并将其与官方 API 及爬虫区分开来。
- 提供研究人员在抓取时必须考虑的法律、伦理、机构和科学因素框架。
- 提供在科学上正当且合乎伦理地进行抓取的建议和实际清单。
提出的方法
- 定义抓取及调查机制(传统抓取、未公开 API 抓取、浏览器插件抓取)。
- 分析法律因素,包括合同、法定、隐私和数据获取法,并附示例和案例参考。
- 讨论 Common Rule 下的伦理考量以及关于公共数据与同意的争论。
- 概述与大学环境相关的制度因素与相关方角色。
- 提供一个框架和可操作的指南,以降低抓取项目的法律与伦理风险。
实验结果
研究问题
- RQ1研究人员在对网页进行抓取以进行社会科学研究时,必须考虑哪些法律、伦理、制度和科学因素?
- RQ2研究人员如何在当前与不断演变的数据获取格局中开展抓取,以实现科学严格性和伦理合规?
- RQ3哪些实际建议和清单可以帮助研究人员在将抓取作为数据收集方法时降低风险?
主要发现
- 抓取通过多种机制进行(传统抓取、未公开 API、浏览器插件),具有各自的法律和伦理含义。
- 存在一个法律拼凑体(合同、CFAA、隐私/数据保护、如 EU DSA 的数据获取制度等),在不同司法辖区对抓取造成非统一的风险。
- 法院日益严格审查用户合同(browsewrap 与 clickwrap)在反抓取执法中的应用,影响依赖公共数据的研究人员。
- 隐私法,尤其是 GDPR,带来挑战,但在降低风险并最小化数据时也对研究人员有利的豁免。
- 数据获取制度(如 EU DSA)趋向于授权经过审查的研究人员获取平台数据以进行与政策相关的研究,标志着监管转变。
- 抓取伦理必须在公共数据使用、隐私、同意以及对个人和社区可能造成的伤害之间取得平衡,特别是对关系数据和脆弱群体。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。