Skip to main content
QUICK REVIEW

[論文レビュー] On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models

Sarah Gao, Andrew Gao|arXiv (Cornell University)|Jul 19, 2023
Topic Modeling被引用数 10
ひとこと要約

本論文は Constellation を構築し、Hugging Face の LLM 命名法に基づく階層的クラスタリングを用いて 15,821 件の LLM のコミュニティを識別する公開 Atlas を作成し、探索用の視覚化とウェブアプリを提供する。

ABSTRACT

Since late 2022, Large Language Models (LLMs) have become very prominent with LLMs like ChatGPT and Bard receiving millions of users. Hundreds of new LLMs are announced each week, many of which are deposited to Hugging Face, a repository of machine learning models and datasets. To date, nearly 16,000 Text Generation models have been uploaded to the site. Given the huge influx of LLMs, it is of interest to know which LLM backbones, settings, training methods, and families are popular or trending. However, there is no comprehensive index of LLMs available. We take advantage of the relatively systematic nomenclature of Hugging Face LLMs to perform hierarchical clustering and identify communities amongst LLMs using n-grams and term frequency-inverse document frequency. Our methods successfully identify families of LLMs and accurately cluster LLMs into meaningful subgroups. We present a public web application to navigate and explore Constellation, our atlas of 15,821 LLMs. Constellation rapidly generates a variety of visualizations, namely dendrograms, graphs, word clouds, and scatter plots. Constellation is available at the following link: https://constellation.sites.stanford.edu/.

研究の動機と目的

  • ChatGPT や Bard のような人気例を超えて急速に拡大する LLM の総合的な索引の必要性を動機づける。
  • モデル命名規則に基づく階層的クラスタリングを用いて LLM のファミリーとサブグループを識別するためのスケーラブルな手法を提案する。
  • 樹形図、グラフ、ワードクラウド、散布図を通じて LLM のアトラスを可視化・探索する公共のウェブアプリケーション(Constellation)を提供する。
  • 本手法が LLM を意味のあるサブグループへ正確にクラスタリングし、コミュニティを明らかにすることを示す。

提案手法

  • Hugging Face の LLM の体系的な命名法を活用して階層的クラスタリングを実施する。
  • n-grams と term frequency–inverse document frequency (tf-idf) を用いて LLM の間のコミュニティを特定する。
  • LLM のバックボーン、設定、学習方法、およびファミリーを意味のあるサブグループにクラスタリングする。
  • 樹形図、グラフ、ワードクラウド、散布図などの視覚化を生成する公共のウェブアプリケーション(Constellation)を開発する。
  • 対話的な探索機能を備えた 15,821 LLM のナビゲーション可能なアトラスを提供する。

実験結果

リサーチクエスチョン

  • RQ1Hugging Face LLM 名の階層的クラスタリングは、明確な LLM ファミリーとコミュニティを明らかにするだろうか?
  • RQ2n-grams と tf-idf の特徴は、LLM のバックボーンとトレーニング設定の関係をどの程度捉えられるのか?
  • RQ3Constellation のような公開アトラスは、15,821 の LLM の風景を可視化・ナビゲーションするのに効果的か?

主な発見

  • n-grams と tf-idf に基づく手法は、LLM のファミリーをうまく識別する。
  • クラスタリング手法は、LLM のバックボーン、設定、学習方法に対応する意味のあるサブグループを生み出す。
  • Constellation は、LLM の風景を探索するための樹形図、グラフ、ワードクラウド、散布図などの複数の視覚化を提供する。
  • このアトラスには 15,821 の LLM が含まれており、公共のウェブアプリケーションを介して迅速なナビゲーションと探索を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。