[论文解读] The Compute Divide in Machine Learning: A Threat to Academic Contribution and Scrutiny?
本文提供了一份数据驱动的调研,揭示工业界与学术界之间日益扩大的算力差距、对学术贡献和模型审查的影响,以及扩大学术算力获取与开放科学的政策建议。
There are pronounced differences in the extent to which industrial and academic AI labs use computing resources. We provide a data-driven survey of the role of the compute divide in shaping machine learning research. We show that a compute divide has coincided with a reduced representation of academic-only research teams in compute intensive research topics, especially foundation models. We argue that, academia will likely play a smaller role in advancing the associated techniques, providing critical evaluation and scrutiny, and in the diffusion of such models. Concurrent with this change in research focus, there is a noticeable shift in academic research towards embracing open source, pre-trained models developed within the industry. To address the challenges arising from this trend, especially reduced scrutiny of influential models, we recommend approaches aimed at thoughtfully expanding academic insights. Nationally-sponsored computing infrastructure coupled with open science initiatives could judiciously boost academic compute access, prioritizing research on interpretability, safety and security. Structured access programs and third-party auditing may also allow measured external evaluation of industry systems.
研究动机与目标
- 评估工业界与学术界在算力获取差异如何塑造机器学习研究生态系统。
- 量化在计算密集型主题和基础模型中学术代表性的变化。
- 评估学术界在扩散、审查和评估机器学习产物方面的影响。
- 提出扩大学术算力获取并提升审查的政策与治理机制。
提出的方法
- 汇编并分析一个包含超过650个机器学习模型的数据集,以识别算力使用情况和机构来源。
- 分析 NeurIPS 2021 论文,比较学术界与工业界在算力使用和作者隶属关系方面的差异。
- 使用 OpenAlex 研究2012-2021年主题表征与计算相关关键词趋势。
- 按算力强度和机构类型对模型与主题进行分类,以评估扩散与审查差距。
- 考察开源模型和结构化访问在调解算力差距中的作用。

实验结果
研究问题
- RQ1日益扩大的算力差距如何影响ML研究生态系统,以及谁能够访问、评估和审查模型?
- RQ2在训练大规模模型方面行业主导的后果以及对学术贡献的影响有哪些?
- RQ3算力差距如何影响ML产物的扩散、开放性和审查?
- RQ4哪些政策或治理措施可以扩大学术算力获取并维持安全与问责?
主要发现
- 学术实验室对大规模模型的贡献份额在下降,早期2010年代约65%,到2020年代初降至约10%。
- 自2017年以来,纯行业研究团队主导大规模模型的训练,2022年达到约81%。
- 行业团队在NeurIPS论文中使用的硬件大约比非行业团队强五倍。
- 计算相关术语在机器学习摘要中与2012-2021年内某些主题(如NLP)的学术-only出版物下降相关。
- 开源预训练模型(例如 BERT)在行业发布推动可获得性和标准化的同时上升,影响研究议程。
- 行业作者数量与代码发布之间存在负相关关系,表明行业参与度越高,扩散越受限。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。