QUICK REVIEW

[논문 리뷰] The Compute Divide in Machine Learning: A Threat to Academic Contribution and Scrutiny?

Tamay Besiroglu, Sage Andrus Bergerson|arXiv (Cornell University)|2024. 01. 04.

Explainable Artificial Intelligence (XAI)인용 수 5

한 줄 요약

이 데이터 기반 설문은 산업계와 학계 간의 컴퓨트 격차가 확대되고, 이것이 학계의 기여 및 모델 감시 등에 미치는 영향과 학계 컴퓨트 접근 확대 및 오픈 사이언스를 위한 정책 권고를 제시한다.

ABSTRACT

There are pronounced differences in the extent to which industrial and academic AI labs use computing resources. We provide a data-driven survey of the role of the compute divide in shaping machine learning research. We show that a compute divide has coincided with a reduced representation of academic-only research teams in compute intensive research topics, especially foundation models. We argue that, academia will likely play a smaller role in advancing the associated techniques, providing critical evaluation and scrutiny, and in the diffusion of such models. Concurrent with this change in research focus, there is a noticeable shift in academic research towards embracing open source, pre-trained models developed within the industry. To address the challenges arising from this trend, especially reduced scrutiny of influential models, we recommend approaches aimed at thoughtfully expanding academic insights. Nationally-sponsored computing infrastructure coupled with open science initiatives could judiciously boost academic compute access, prioritizing research on interpretability, safety and security. Structured access programs and third-party auditing may also allow measured external evaluation of industry systems.

연구 동기 및 목표

산업계와 학계 간의 컴퓨트 접근 차이가 ML 연구 생태계에 어떤 영향을 미치는지 평가한다.
컴퓨트 집약적 주제와 기초 모델에서 학계 대표성의 변화를 계량화한다.
학계가 ML 산물의 확산, 감시 및 평가에 미치는 함의를 평가한다.
학계 컴퓨트 접근 확대와 감시 강화를 위한 정책 및 거버넌스 메커니즘을 제안한다.

제안 방법

650개가 넘는 ML 모델의 데이터 세트를 수집하고 분석해 컴퓨트 사용량과 기관 출처를 식별한다.
NeurIPS 2021 논문을 분석해 학계와 산업계 간 컴퓨트 사용량과 저자 소속을 비교한다.
OpenAlex를 활용해 2012-2021년 동안 주제 표현과 컴퓨트 키워드 추세를 연구한다.
컴퓨트 강도와 기관 유형에 따라 모델과 주제를 분류해 확산 및 감시 격차를 평가한다.
컴퓨트 격차를 중재하는 데 있어 오픈 소스 모델과 구조화된 접근의 역할을 조사한다.

The Compute Divide in Machine Learning: A Threat to Academic Contribution and Scrutiny?

실험 결과

연구 질문

RQ1확대되는 컴퓨트 격차가 ML 연구 생태계에 어떤 영향을 미치며 누가 모델에 접근하고 평가하며 감시할 수 있는가?
RQ2대규모 모델 학습에서 산업계 지배의 결과와 학계 기여에 미치는 영향은 무엇인가?
RQ3컴퓨트 격차가 ML 산물의 확산, 개방성, 감시에 어떤 영향을 미치는가?
RQ4학계 컴퓨트 접근을 확대하고 안전성 및 책임성을 유지하기 위한 정책 또는 거버넌스 조치는 무엇인가?

주요 결과

학계 연구실은 대규모 모델의 비중이 감소하고 있으며, 2010년대 초 약 65%에서 2020년대 초 약 10%로 하락했다.
2017년 이후 산업계 단독 연구팀이 대규모 모델 학습을 지배하며 2022년 약 81%에 도달했다.
산업 팀은 NeurIPS 출판에서 비산업 팀보다 하드웨어가 대략 다섯 배 더 강력하게 사용된다.
ML 초록의 컴퓨트 관련 용어는 2012-2021년 동안 주제 내 학술 전용 게시물의 감소와 상관관계가 있다(예: NLP).
오픈 소스 사전학습 모델(예: BERT)은 산업계의 공개로 접근성 및 표준화가 촉진되면서 연구 의제에 영향을 준다.
산업계 저자 참여와 코드 공개 사이에 음의 관계가 있어 산업계 참여가 높을수록 확산이 감소함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.