[論文レビュー] ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools
ChatGLMは一連のLLMを提供し、GLM-4とGLM-4 All Toolsへと集約され、英語と中国語のベンチマークで高い性能を発揮し、複雑なタスクの自律的ツール使用を可能にする。
We introduce ChatGLM, an evolving family of large language models that we have been developing over time. This report primarily focuses on the GLM-4 language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B. They represent our most capable models that are trained with all the insights and lessons gained from the preceding three generations of ChatGLM. To date, the GLM-4 models are pre-trained on ten trillions of tokens mostly in Chinese and English, along with a small set of corpus from 24 languages, and aligned primarily for Chinese and English usage. The high-quality alignment is achieved via a multi-stage post-training process, which involves supervised fine-tuning and learning from human feedback. Evaluations show that GLM-4 1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval, 2) gets close to GPT-4-Turbo in instruction following as measured by IFEval, 3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and 4) outperforms GPT-4 in Chinese alignments as measured by AlignBench. The GLM-4 All Tools model is further aligned to understand user intent and autonomously decide when and which tool(s) touse -- including web browser, Python interpreter, text-to-image model, and user-defined functions -- to effectively complete complex tasks. In practical applications, it matches and even surpasses GPT-4 All Tools in tasks like accessing online information via web browsing and solving math problems using Python interpreter. Over the course, we have open-sourced a series of models, including ChatGLM-6B (three generations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, and CodeGeeX, attracting over 10 million downloads on Hugging face in the year 2023 alone. The open models can be accessed through https://github.com/THUDM and https://huggingface.co/THUDM.
研究の動機と目的
- GLM-4およびGLM-4 All Toolsの標準的な学術ベンチマークと長文脈タスクでの性能を評価する。
- 事前学習データと整合化、および中国語と英語の能力向上を可能にするアーキテクチャ上の決定を説明する。
- 複数のベンチマークにわたる指示遵守、整合性、そして安全性の側面を評価する。
- 自動ツール使用(ウェブ、Python、画像生成)とエージェントタスクのためのAll Tools機能を実演する。
提案手法
- 事前学習データの構成とトークン化戦略を説明する(10兆トークン、バイリンガルに焦点)。
- アーキテクチャの選択肢を説明する(QKVを除く偏りなし、RMSNorm、SwiGLU、RoPE2D、Group Query Attention、長さ128K/1Mまでの文脈長のスケーリング)
- SFT、RLHFによる多段後訓練整合、およびデータ品質管理を概説する。
- ウェブブラウザ、Pythonインタプリタ、テキストから画像モデル、ユーザー定義関数を含むAll Toolsの統合を要約する。
- ベンチマーク全体の評価設定を説明する(MMLU、GSM8K、MATH、BBH、GPQA、HumanEval、AlignBench、LongBench-Chat、NCB、Berkeley Function Call Leaderboard、AgentBench)。

実験結果
リサーチクエスチョン
- RQ1GLM-4およびGLM-4 All Toolsの標準的な学術ベンチマークと長文脈タスクでの性能は、GPT-4およびClaudeとどの程度近いか。
- RQ2GLM-4の中国語整合化と長文脈能力は、競合モデルと同等かそれを上回ることができるか。
- RQ3アーキテクチャの革新と長文脈トレーニングが性能と効率性にどのような影響を与えるか。
- RQ4GLM-4 All Toolsは自律的なツール使用とエージェントタスクでどれほど効果的か。
- RQ5GLM-4の安全性とリスクプロファイルは最先端モデルと比較してどうか。
主な発見
| Model | MMLU | GSM8K | MATH | BBH | GPQA | HumanEval |
|---|---|---|---|---|---|---|
| GLM-4-9B-Chat | 72.4 | 79.6 | 50.6 | 76.3 | 28.8 | 71.8 |
| GLM-4-Air (0605) | 81.9 | 90.9 | 57.9 | 80.4 | 38.4 | 75.7 |
| GLM-4 (0520) | 83.3 | 93.3 | 61.3 | 84.7 | 39.9 | 78.5 |
- GLM-4 (0520) は MMLU 83.3、GSM8K 93.3、MATH 61.3、BBH 84.7、GPQA 39.9、HumanEval 78.5、GPT-4 TurboおよびClaude 3 Opusの多くのベンチマークで近づく。
- 指示遵守において、GLM-4-0520はプロンプト/指示設定でGPT-4 Turbo (2024-04-09)と一致し、中国語翻訳プロンプトにおいてGPT-4 Turboと高い類似性を示す。
- GLM-4はAlignBenchでの中国語整合においてGPT-4を上回り、GLM-4 128Kの文脈長はLongBench-Chatの長文脈タスクでGPT-4 TurboおよびClaude 3 Opusと同等である。
- GLM-4 All Toolsはウェブブラウザ、Pythonインタプリタ、テキストから画像モデルを用いて自律的にツールを選択・使用でき、実用的な情報アクセスと計算問題解決でGPT-4 All Toolsをしばしば上回る。
- GLM-4-9B-ChatおよびGLM-4-Airは、長文脈拡張(128K/1M)とコード/問題解決機能を備えつつ、遅延とコストを抑えた競争力のある性能を提供する。
- 安全性については、GLM-4はSafetyBenchのほとんどの指標で競争力のあるスコアを示し、Claude 3 Opusに近づき、全体的な安全性ではGPT-4ファミリに近づく。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。