QUICK REVIEW

[論文レビュー] InternLM2 Technical Report

Zheng Cai, Maosong Cao|arXiv (Cornell University)|Mar 26, 2024

Artificial Intelligence in Healthcare and Education被引用数 27

ひとこと要約

InternLM2 は、30 のベンチマークを通じて従来のオープンモデルを上回るオープンソースの LLM で、長い文脈を最大 200k までサポートし、整合のために COOL RLHF を使用します。

ABSTRACT

The evolution of Large Language Models (LLMs) like ChatGPT and GPT-4 has sparked discussions on the advent of Artificial General Intelligence (AGI). However, replicating such advancements in open-source models has been challenging. This paper introduces InternLM2, an open-source LLM that outperforms its predecessors in comprehensive evaluations across 6 dimensions and 30 benchmarks, long-context modeling, and open-ended subjective evaluations through innovative pre-training and optimization techniques. The pre-training process of InternLM2 is meticulously detailed, highlighting the preparation of diverse data types including text, code, and long-context data. InternLM2 efficiently captures long-term dependencies, initially trained on 4k tokens before advancing to 32k tokens in pre-training and fine-tuning stages, exhibiting remarkable performance on the 200k ``Needle-in-a-Haystack" test. InternLM2 is further aligned using Supervised Fine-Tuning (SFT) and a novel Conditional Online Reinforcement Learning from Human Feedback (COOL RLHF) strategy that addresses conflicting human preferences and reward hacking. By releasing InternLM2 models in different training stages and model sizes, we provide the community with insights into the model's evolution.

研究の動機と目的

複数のベンチマークと複数の次元で、オープンソース LLM の性能を示す。
テキスト、コード、長文コンテキストデータを含む、さまざまな事前学習データの準備を詳述する。
32k 以上のコンテキストウィンドウと 200k ニードルインアヘイスタック能力を可能にする長文脈訓練技術を説明する。
衝突する人間の嗜好に対処するための SFT および COOL RLHF を含む整合手法を提示する。
メモリ効率、フォールトトレランス、および対話型 RLHF 設定を備えた InternEvo 訓練フレームワークと、コミュニティ採用を導くための段階的なモデル進化を共有する。

提案手法

テキストデータのフォーマット設定、重複排除、安全性と品質フィルタリングを含むデータ処理パイプラインを説明する。
事前学習時のトークナイゼーションを、GPT-4 スタイルの cl100k ボキャブラリと中国語の拡張を用いて説明する。
4k から 32k のコンテキストデータによる長文脈事前学習を概説し、重複排除には局所感知ハッシュ（Locality-Sensitive Hashing）を用いる。
長文脈推論のための Grouped-Query Attention (GQA) と、テンソル並列レイアウトの選択を導入する。
条件付き報酬モデルと PPO 更新を用いた、教師付き微調整（SFT）と条件付きオンライン RLHF（COOL RLHF）を詳述する。
メモリ効率、フォールトトレランス、および対話型 RLHF 設定を備えた InternEvo 訓練フレームワークを紹介する。

実験結果

リサーチクエスチョン

RQ1InternLM2 は、6 つの次元と 30 のベンチマークにおいて、オープンソースのライバルと比べてどのように性能を発揮するか？
RQ2安全で高品質な事前学習データを最もよく支援するデータ処理とフィルタリング戦略は何か。
RQ3長文脈モデル（最大 200k トークン）は実践的に効果的に訓練・活用できるか。
RQ4衝突する人間の嗜好と報酬ハッキングに対して COOL RLHF はどのように整合性を図るか。
RQ5コミュニティの規模拡大と再現性を高めるためのインフラとモデル進化の実践は何か。

主な発見

InternLM2 は、総合評価と長文脈タスクのすべてで従来のオープンソースモデルを凌駕する。
長文脈性能が高く、200k のコンテキストテストでニードル検出をほぼ完遂するなどの実績を示す。
COOL RLHF は、多様な嗜好を調整し、報酬ハッキングを緩和することで主観的な整合性を向上させる。
高品質で安全性フィルタリングされた事前学習データは、安定性と性能のために不可欠である。
InternEvo は、何千もの GPU に跨るスケーラブルでフォールトトレラントな訓練と対話型 RLHF を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。