QUICK REVIEW

[論文レビュー] BloombergGPT: A Large Language Model for Finance

Shijie Wu, Ozan İrsoy|arXiv (Cornell University)|Mar 30, 2023

Topic Modeling被引用数 299

ひとこと要約

BloombergGPT は、金融データと公開データの大規模で厳選された混合物（FinPile + public corpora）で訓練された、デコーダーのみの 50B-parameter の LLM で、金融タスクの性能を大幅に向上させつつ、一般的な NLP ベンチマークでも競争力を維持します。

ABSTRACT

The use of NLP in the realm of financial technology is broad and complex, with applications ranging from sentiment analysis and named entity recognition to question answering. Large Language Models (LLMs) have been shown to be effective on a variety of tasks; however, no LLM specialized for the financial domain has been reported in literature. In this work, we present BloombergGPT, a 50 billion parameter language model that is trained on a wide range of financial data. We construct a 363 billion token dataset based on Bloomberg's extensive data sources, perhaps the largest domain-specific dataset yet, augmented with 345 billion tokens from general purpose datasets. We validate BloombergGPT on standard LLM benchmarks, open financial benchmarks, and a suite of internal benchmarks that most accurately reflect our intended usage. Our mixed dataset training leads to a model that outperforms existing models on financial tasks by significant margins without sacrificing performance on general LLM benchmarks. Additionally, we explain our modeling choices, training process, and evaluation methodology. We release Training Chronicles (Appendix C) detailing our experience in training BloombergGPT.

研究の動機と目的

金融分野に特化した大規模言語モデルを開発する。
混合ドメイン訓練を可能にするため、金融データを含む大規模で厳選された FinPile データセットを作成し、公開データを補完する。
標準および内部の金融ベンチマーク、さらには一般的な LLM ベンチマークで BloombergGPT を評価する。
再現性を支援するため、データ収集、トークナイザー設計、モデルアーキテクチャ、訓練プロトコル、および評価方法を説明する。
将来の分野別 LLM イニシアティブに情報を提供するため、訓練の洞察と課題を共有する。

提案手法

BLOOM アーキテクチャに触発された 50B parameter のデコーダー専用モデルを構築する。
混合トレーニングコーパスを使用: FinPile (financial) からの 363B トークンと public datasets からの 345B トークンを合計で 700B トークン超となる。
131,072 語彙トークンを用いた Unigram トークナイザーと ALiBi の位置エンコーディングを採用する。
2,048-token のシーケンスを用いた左から右への因果目的で訓練し、64×8 の A100 GPU、ZeRO stage 3 モデルパラレリズムを使用する。
適切な箇所で BF16 と FP32 を組み合わせた混合精度訓練、アクティベーション・チェックポイント、効率向上のための融合カーネルを適用する。
公開金融 NLP ベンチマーク、内部の Bloomberg タスク、一般的な NLP ベンチマークで評価し、ドメイン固有能力と一般能力を評価する。

実験結果

リサーチクエスチョン

RQ1BloombergGPT は金融 NLP ベンチマークで、一般目的 LLM と比べてどのように性能を示すか？
RQ2混合ドメイン訓練（金融データと公開データの両方）は、一般的な NLP 能力を低下させることなく金融タスクの性能を向上させるか？
RQ3データセット構築（FinPile）とトークナイザー選択がモデルの性能と効率に及ぼす効果は何か？
RQ450B parameter の金融に焦点を当てた LLM の訓練を安定化・拡張するための訓練設定と最適化戦略はどのようなものか？
RQ5Bloomberg 専用のベンチマーク（内部タスク）は、実世界の利用と公開ベンチマークをどのように反映しているか？

主な発見

BloombergGPT は、インドメインの金融タスクで既存モデルを大幅に上回る。
金融に焦点を当てていても、一般的な NLP ベンチマークで競争力のある、あるいは優れた性能を維持する。
訓練は 50B parameter のデコーダーを用い、70 層と 40 のアテンション・ヘッド、約 569B トークンで訓練される。
トークナイザーは131,072 の大規模 Unigram 語彙で、密な情報エンコードを可能にする。
ALiBi の位置エンコーディングと BLOOM 風デコーダーアーキテクチャは、長いシーケンス推論を効率化する。
評価には外部の金融タスク、内部の感情分析および NER プローブ、そして BIG-bench Hard の評価が含まれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。