Skip to main content
QUICK REVIEW

[論文レビュー] ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

Team GLM, :|arXiv (Cornell University)|Jun 18, 2024
Topic Modeling被引用数 175
ひとこと要約

ChatGLMは一連のLLMを提供し、GLM-4とGLM-4 All Toolsへと集約され、英語と中国語のベンチマークで高い性能を発揮し、複雑なタスクの自律的ツール使用を可能にする。

ABSTRACT

We introduce ChatGLM, an evolving family of large language models that we have been developing over time. This report primarily focuses on the GLM-4 language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B. They represent our most capable models that are trained with all the insights and lessons gained from the preceding three generations of ChatGLM. To date, the GLM-4 models are pre-trained on ten trillions of tokens mostly in Chinese and English, along with a small set of corpus from 24 languages, and aligned primarily for Chinese and English usage. The high-quality alignment is achieved via a multi-stage post-training process, which involves supervised fine-tuning and learning from human feedback. Evaluations show that GLM-4 1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval, 2) gets close to GPT-4-Turbo in instruction following as measured by IFEval, 3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and 4) outperforms GPT-4 in Chinese alignments as measured by AlignBench. The GLM-4 All Tools model is further aligned to understand user intent and autonomously decide when and which tool(s) touse -- including web browser, Python interpreter, text-to-image model, and user-defined functions -- to effectively complete complex tasks. In practical applications, it matches and even surpasses GPT-4 All Tools in tasks like accessing online information via web browsing and solving math problems using Python interpreter. Over the course, we have open-sourced a series of models, including ChatGLM-6B (three generations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, and CodeGeeX, attracting over 10 million downloads on Hugging face in the year 2023 alone. The open models can be accessed through https://github.com/THUDM and https://huggingface.co/THUDM.

研究の動機と目的

  • GLM-4およびGLM-4 All Toolsの標準的な学術ベンチマークと長文脈タスクでの性能を評価する。
  • 事前学習データと整合化、および中国語と英語の能力向上を可能にするアーキテクチャ上の決定を説明する。
  • 複数のベンチマークにわたる指示遵守、整合性、そして安全性の側面を評価する。
  • 自動ツール使用(ウェブ、Python、画像生成)とエージェントタスクのためのAll Tools機能を実演する。

提案手法

  • 事前学習データの構成とトークン化戦略を説明する(10兆トークン、バイリンガルに焦点)。
  • アーキテクチャの選択肢を説明する(QKVを除く偏りなし、RMSNorm、SwiGLU、RoPE2D、Group Query Attention、長さ128K/1Mまでの文脈長のスケーリング)
  • SFT、RLHFによる多段後訓練整合、およびデータ品質管理を概説する。
  • ウェブブラウザ、Pythonインタプリタ、テキストから画像モデル、ユーザー定義関数を含むAll Toolsの統合を要約する。
  • ベンチマーク全体の評価設定を説明する(MMLU、GSM8K、MATH、BBH、GPQA、HumanEval、AlignBench、LongBench-Chat、NCB、Berkeley Function Call Leaderboard、AgentBench)。
Figure 1 : The timeline of the GLM family of language, code, vision, and agent models. The focus of this report is primarily on the language models, i.e., ChatGLM. The APIs are publicly available at https://bigmodel.cn and open models can be accessed through https://github.com/THUDM .
Figure 1 : The timeline of the GLM family of language, code, vision, and agent models. The focus of this report is primarily on the language models, i.e., ChatGLM. The APIs are publicly available at https://bigmodel.cn and open models can be accessed through https://github.com/THUDM .

実験結果

リサーチクエスチョン

  • RQ1GLM-4およびGLM-4 All Toolsの標準的な学術ベンチマークと長文脈タスクでの性能は、GPT-4およびClaudeとどの程度近いか。
  • RQ2GLM-4の中国語整合化と長文脈能力は、競合モデルと同等かそれを上回ることができるか。
  • RQ3アーキテクチャの革新と長文脈トレーニングが性能と効率性にどのような影響を与えるか。
  • RQ4GLM-4 All Toolsは自律的なツール使用とエージェントタスクでどれほど効果的か。
  • RQ5GLM-4の安全性とリスクプロファイルは最先端モデルと比較してどうか。

主な発見

ModelMMLUGSM8KMATHBBHGPQAHumanEval
GLM-4-9B-Chat72.479.650.676.328.871.8
GLM-4-Air (0605)81.990.957.980.438.475.7
GLM-4 (0520)83.393.361.384.739.978.5
  • GLM-4 (0520) は MMLU 83.3、GSM8K 93.3、MATH 61.3、BBH 84.7、GPQA 39.9、HumanEval 78.5、GPT-4 TurboおよびClaude 3 Opusの多くのベンチマークで近づく。
  • 指示遵守において、GLM-4-0520はプロンプト/指示設定でGPT-4 Turbo (2024-04-09)と一致し、中国語翻訳プロンプトにおいてGPT-4 Turboと高い類似性を示す。
  • GLM-4はAlignBenchでの中国語整合においてGPT-4を上回り、GLM-4 128Kの文脈長はLongBench-Chatの長文脈タスクでGPT-4 TurboおよびClaude 3 Opusと同等である。
  • GLM-4 All Toolsはウェブブラウザ、Pythonインタプリタ、テキストから画像モデルを用いて自律的にツールを選択・使用でき、実用的な情報アクセスと計算問題解決でGPT-4 All Toolsをしばしば上回る。
  • GLM-4-9B-ChatおよびGLM-4-Airは、長文脈拡張(128K/1M)とコード/問題解決機能を備えつつ、遅延とコストを抑えた競争力のある性能を提供する。
  • 安全性については、GLM-4はSafetyBenchのほとんどの指標で競争力のあるスコアを示し、Claude 3 Opusに近づき、全体的な安全性ではGPT-4ファミリに近づく。
Figure 2 : An Illustrative Example of GLM-4 All Tools.
Figure 2 : An Illustrative Example of GLM-4 All Tools.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。