Skip to main content
QUICK REVIEW

[论文解读] What's documented in AI? Systematic Analysis of 32K AI Model Cards

Weixin Liang, Nazneen Fatema Rajani|arXiv (Cornell University)|Feb 7, 2024
Artificial Intelligence in Healthcare被引用 5
一句话总结

本研究分析 Hugging Face 上的32,111个 AI 模型卡,以评估文档质量、各部分的完整性以及添加详细模型卡对模型使用的影响。研究发现各部分信息量不均衡,干预后下载量有适度提升。

ABSTRACT

The rapid proliferation of AI models has underscored the importance of thorough documentation, as it enables users to understand, trust, and effectively utilize these models in various applications. Although developers are encouraged to produce model cards, it's not clear how much information or what information these cards contain. In this study, we conduct a comprehensive analysis of 32,111 AI model documentations on Hugging Face, a leading platform for distributing and deploying AI models. Our investigation sheds light on the prevailing model card documentation practices. Most of the AI models with substantial downloads provide model cards, though the cards have uneven informativeness. We find that sections addressing environmental impact, limitations, and evaluation exhibit the lowest filled-out rates, while the training section is the most consistently filled-out. We analyze the content of each section to characterize practitioners' priorities. Interestingly, there are substantial discussions of data, sometimes with equal or even greater emphasis than the model itself. To evaluate the impact of model cards, we conducted an intervention study by adding detailed model cards to 42 popular models which had no or sparse model cards previously. We find that adding model cards is moderately correlated with an increase weekly download rates. Our study opens up a new perspective for analyzing community norms and practices for model documentation through large-scale data science and linguistics analysis.

研究动机与目标

  • 评估 Hugging Face 上的 AI 模型卡在各个部分的填写程度。
  • 识别常被填写和被忽略的章节(例如 Training、Environmental Impact、Limitations、Evaluation)。
  • 通过对模型卡各部分的内容分析来描绘从业者的优先关注点。
  • 评估提供详细的模型卡是否会影响模型使用量(下载量)。
  • 讨论对人工智能领域的标准化、透明度以及数据驱动文档的影响。

提出的方法

  • 截至 2022 年 10 月 1 日,收集了 Hugging Face 上的 74,970 个 AI 模型仓库;分析了由 6,392 个账户上传的包含模型卡(Markdown README.md)的 32,111 个模型。
  • 解析模型卡以使用基于关键字的管道检测章节的存在性(如环境影响中的 CO2 变体等)。
  • 对四个关键章节(Limitations、Uses、Evaluation、Training)进行了基于句子级主题建模的内容分析。
  • 比较前 100、前 1,000 及整个群体的模型卡,以检视长度和完成率。
  • 开展了模型卡干预研究:对 42 个受欢迎但模型卡稀缺/缺失的模型添加详细模型卡,并采用双重差分方法评估下载量的变化。
  • 为干预结果计算统计显著性和效应量(如 p 值、置信区间)。

实验结果

研究问题

  • RQ1 Hugging Face AI 模型中有多少比例具备模型卡,这些模型承担了多少流量?
  • RQ2哪些模型卡的章节被最多/最少填写,随时间及卡片等级(Top 模型)如何变化?
  • RQ3关键章节(Limitations、Uses、Evaluation、Training)内容的主题有哪些?
  • RQ4为此前稀少的模型添加详细模型卡是否影响其周下载率?
  • RQ5对文档实践和数据驱动 AI 研究的更广泛影响是什么?

主要发现

  • 44.2% 的 Hugging Face 模型有模型卡,但这些模型占总下载流量的 90.5%。
  • 环境影响(2.0%)和评估(15.4%)以及限制(17.4%)部分的完成率最低,而培训(74.3%)是填写最频繁的。
  • 前 100 名模型卡往往更长,在若干部分的完成率较高(例如环境影响 9.0%、限制 39.0%、评估 47.0%、引用 67.0%)。
  • 大约 84.8% 的环境影响部分由 AI 工具自动生成(如 AutoNLP/AutoTrain)。
  • 在模型卡干预研究中,Batch 2 对处理模型的每周平均下载量显著增加 29.0%(95% 置信区间 [10.6%, 47.5%],p=0.01);Batch 1 的效应较小且不具确证力,可能由于感恩节时机导致。
  • 总体而言,该研究表明模型卡信息更丰富与模型使用之间存在中等正相关性,尽管结果因批次和外部因素而异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。