[論文レビュー] FinBen: A Holistic Financial Benchmark for Large Language Models
FinBenは、Inductionから取引までを評価する CHC にインスパイアされた3つのスペクトラムに整理された、35のデータセットを横断する23の金融タスクを含む、包括的なオープンソースベンチマークを提案します。
LLMs have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of comprehensive evaluation benchmarks, the rapid development of LLMs, and the complexity of financial tasks. In this paper, we introduce FinBen, the first extensive open-source evaluation benchmark, including 36 datasets spanning 24 financial tasks, covering seven critical aspects: information extraction (IE), textual analysis, question answering (QA), text generation, risk management, forecasting, and decision-making. FinBen offers several key innovations: a broader range of tasks and datasets, the first evaluation of stock trading, novel agent and Retrieval-Augmented Generation (RAG) evaluation, and three novel open-source evaluation datasets for text summarization, question answering, and stock trading. Our evaluation of 15 representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals several key findings: While LLMs excel in IE and textual analysis, they struggle with advanced reasoning and complex tasks like text generation and forecasting. GPT-4 excels in IE and stock trading, while Gemini is better at text generation and forecasting. Instruction-tuned LLMs improve textual analysis but offer limited benefits for complex tasks such as QA. FinBen has been used to host the first financial LLMs shared task at the FinNLP-AgentScen workshop during IJCAI-2024, attracting 12 teams. Their novel solutions outperformed GPT-4, showcasing FinBen's potential to drive innovation in financial LLMs. All datasets, results, and codes are released for the research community: https://github.com/The-FinAI/PIXIU.
研究の動機と目的
- LLMs のための広範で実世界の金融評価ベンチマークの必要性を動機づける。
- FinBen を言語処理、知識抽出、数値推論、生成、予測、取引タスクを網羅するよう設計する。
- 金融分野での LLM 能力を測るため、 多様なデータモダリティを備えたオープンソースのフレームワークを提供する。
- 金融タスク全体で強みと制約を特定するため、代表的な15の LLM を評価する。
- 金融分野における基本的な能力から汎用知能までをマッピングする CHC 風スペクトラムを提案する。
提案手法
- FinBen を 23 の金融タスクにまたがる 35 データセットで構築する。
- CHC 理論を反映する三つのスペクトラムにタスクを整理する:Spectrum I(Quantification, Extraction, Numerical Understanding)、Spectrum II(Generation, Forecasting)、Spectrum III(Stock Trading)。
- GPT-4、ChatGPT、Gemini、オープンソースモデルを含む15の LLM のゼロショット・Few-shot の性能を評価する。
- タスクごとに標準的な指標(例:F1、accuracy、RMSE、ROUGE/BERTScore/BARTScore、MCC、EMAcc)と取引指標(CR、SR、DV、AV、MD)を用いる。
- タスク間で性能を比較し、指示調整が有効な領域とギャップが残る領域を特定する。
実験結果
リサーチクエスチョン
- RQ1FinBen は、既存の NLP中心のベンチマークを超えた、金融分野における広範で実世界の評価を提供できるか?
- RQ2現行の LLM はどの金融タスクで卓越しており、どこで苦戦しているか(例:複雑な抽出、数値推論、予測)?
- RQ3GPT-4、Gemini、オープンソース LLM など、異なるモデルファミリーは三つの CHC にインスパイアされたスペクトラムでどう比較されるか?
- RQ4指示調整はタスク全体で均一に性能を向上させるのか、それとも単純なタスクのみか?
主な発見
| モデル | CR (%) ↑ | SR ↑ | DV (%) ↓ | AV (%) ↓ | MD (%) ↓ |
|---|---|---|---|---|---|
| Buy and Hold | -4.83 ± 18.9 | 0.0541 ± 0.647 | 3.68 ± 1.18 | 58.3 ± 18.8 | 35.3 ± 13 |
| GPT-4 | 28.3 ± 12.5 | 1.42 ± 0.575 | 2.78 ± 0.949 | 44.1 ± 15 | 18.5 ± 6.92 |
| ChatGPT | 5.46 ± 15.5 | 0.139 ± 0.755 | 3.14 ± 1.16 | 49.9 ± 18.5 | 32.1 ± 10.3 |
| LLaMA2-70B | 4.07 ± 20.2 | 0.486 ± 1.12 | 2.41 ± 0.873 | 38.2 ± 13.9 | 23.1 ± 11.9 |
| Gemini | 21 ± 21.6 | 0.861 ± 0.832 | 2.5 ± 1.23 | 39.7 ± 19.6 | 22.5 ± 7.9 |
- GPT-4 は Quantification、Extraction、Numerical reasoning、Stock trading で首位を占め、Gemini は Generation と Forecasting に長ける。
- Instruction tuning は単純なタスクを向上させるが、複雑な数値推論、生成、予測には効果が限定的。
- Open-source/中国語チューニングモデルは一部の分類タスクで高い性能を示すが、跨言語効果とデータセットの整合性が結果に影響する。
- 株取引タスクは LLM の汎用知能能力を示し、評価モデルの中で GPT-4 が最高のシャープレシオと最小の最大ドローダーを達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。