Skip to main content
QUICK REVIEW

[論文レビュー] FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models

Xin Guo, Xia, Haotian|arXiv (Cornell University)|Aug 19, 2023
Topic Modeling被引用数 10
ひとこと要約

FinEvalは、中国の金融ドメインMCQベンチマークで、4カテゴリ(金融, 経済, 会計, 資格)を合計4,661問含み、ゼロショット/少数-shotおよび回答のみ/チェーン・オブ・ソートプロンプトの下で多数のLLMを評価し、GPT-4が約70%の精度に最も近いことを発見しました。

ABSTRACT

Large language models have demonstrated outstanding performance in various natural language processing tasks, but their security capabilities in the financial domain have not been explored, and their performance on complex tasks like financial agent remains unknown. This paper presents FinEval, a benchmark designed to evaluate LLMs' financial domain knowledge and practical abilities. The dataset contains 8,351 questions categorized into four different key areas: Financial Academic Knowledge, Financial Industry Knowledge, Financial Security Knowledge, and Financial Agent. Financial Academic Knowledge comprises 4,661 multiple-choice questions spanning 34 subjects such as finance and economics. Financial Industry Knowledge contains 1,434 questions covering practical scenarios like investment research. Financial Security Knowledge assesses models through 1,640 questions on topics like application security and cryptography. Financial Agent evaluates tool usage and complex reasoning with 616 questions. FinEval has multiple evaluation settings, including zero-shot, five-shot with chain-of-thought, and assesses model performance using objective and subjective criteria. Our results show that Claude 3.5-Sonnet achieves the highest weighted average score of 72.9 across all financial domain categories under zero-shot setting. Our work provides a comprehensive benchmark closely aligned with Chinese financial domain.

研究の動機と目的

  • 包括的なベンチマークで中国語LLMの金融ドメイン一般知識能力を評価する。
  • 4つのカテゴリ(金融、経済、会計、資格)を取り扱い、データは模擬試験と教科書から得る。
  • ゼロショット、少数ショット、回答のみ、チェーン・オブ・ソートを含む複数のプロンプト方式でモデルを評価する。
  • 中国語金融LLMの開発を促進するためのベースラインと公開リーダーボードを提供する。

提案手法

  • Finance, Economy, Accounting, Certificateの34科目にまたがる4,661問の択一問題でFinEvalを構築する。
  • 4つのプロンプト方式を使用: zero-shot AO、zero-shot CoT、five-shot AO、five-shot CoT。
  • すべての問題を4択形式に変換し、必要に応じて読みやすさのために英語翻訳を提供する。
  • データを開発用、検証用、テスト用に手動で精練・整理し、LaTeX向けの構造化フォーマットで提供する。
  • 中国語対応LLM27モデルを広範に評価し、各モデルの最良設定での精度を報告する。

実験結果

リサーチクエスチョン

  • RQ1FinEvalにおけるドメイン特化型金融知識に対する最先端の中国語および英語LLMの性能はどの程度か?
  • RQ2異なるプロンプト方式(AO対CoT、ゼロショット対少数ショット)は中国語の金融タスクの性能にどう影響するか?
  • RQ3金融、経済、会計、資格の各領域で、中国語金融ドメイン知識を最も適切に扱えるモデル(サイズとアーキテクチャ別)はどれか?
  • RQ4中国語の金融領域MCQにおいてチェーン・オブ・ソウトプロンプティングは有益か、どの条件下で有益か?

主な発見

モデルサイズ金融経済会計資格平均
GPT-4unknown71.074.559.370.468.6
ChatGPT175B59.361.645.255.155.0
Qwen-7B7B54.554.450.355.853.8
Qwen-Chat-7B7B51.552.144.553.650.5
Baichuan-13B-Base13B52.650.243.453.550.1
Baichuan-13B-Chat13B51.651.141.752.849.4
ChatGLM2-6B6B46.546.444.551.547.4
InternLM-7B7B49.049.240.549.447.1
InternLM-Chat-7B7B48.449.140.849.547.0
LLaMA-2-Chat-70B70B47.146.741.545.745.2
Falcon-40B40B45.443.235.844.842.4
Baichuan-7B7B44.941.534.945.642.0
LLaMA-2-Chat-13B13B41.638.434.142.139.3
Ziya-LLaMA-13B-v113B43.336.934.341.239.3
Bloomz-7b1-mt7B41.442.132.539.738.8
LLaMA-2-13B13B39.538.631.639.637.4
ChatGLM-6B6B38.836.233.839.137.2
Chinese-Llama-2-7B7B37.837.831.436.735.9
Chinese-Alpaca-Plus-7B7B30.533.432.738.534.0
moss-moon-003-sft16B35.634.328.735.633.7
LLaMA-2-Chat-7B7B35.631.831.934.033.5
LLaMA-2-7B7B34.936.431.431.633.4
AquilaChat-7B7B34.231.329.836.233.1
moss-moon-003-base16B32.233.129.230.731.2
Aquila-7B7B27.131.632.433.631.2
LLaMA-13B13B33.129.727.233.631.1
Falcon-7B7B28.528.227.527.427.9
Out of the 27 models------
  • GPT-4はカテゴリ間で最も高い平均精度を達成(全体 ~68.6%、いくつかのカテゴリで約70%近い)。
  • 27モデルの中で、GPT-4は他をしばしば上回り、ChatGPTは平均精度約55.0%で2位。
  • Qwen-7B, Qwen-Chat-7B, Baichuan-13B-Base/Chat などの中国語LLMは平均精度が約50%を超えるが、チェーン・オブ・ソートの prompting では性能が低下する。
  • モデル全体で、チェーン・オブ・ソート設定の平均精度は回答のみ設定より低く、CoTが必ずしも有益とは限らないことを示唆している。
  • 同一ファミリー内でモデルが大きくなるほど性能は一般に向上するが、カテゴリごとに利得は異なる。
  • FinEvalの結果は、現行のLLMにおける中国語金融ドメイン能力の大幅な改善余地を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。