[論文レビュー] FinanceBench: A New Benchmark for Financial Question Answering
FinanceBench は、40 社の公開企業にわたる 10,231 問のオープンブックベンチマークを導入し、財務QAにおけるLLMを評価する。検索機能や長文コンテキストのサポートなしでは、現在のモデルにはかなりの限界があることを明らかにする。
FinanceBench is a first-of-its-kind test suite for evaluating the performance of LLMs on open book financial question answering (QA). It comprises 10,231 questions about publicly traded companies, with corresponding answers and evidence strings. The questions in FinanceBench are ecologically valid and cover a diverse set of scenarios. They are intended to be clear-cut and straightforward to answer to serve as a minimum performance standard. We test 16 state of the art model configurations (including GPT-4-Turbo, Llama2 and Claude2, with vector stores and long context prompts) on a sample of 150 cases from FinanceBench, and manually review their answers (n=2,400). The cases are available open-source. We show that existing LLMs have clear limitations for financial QA. Notably, GPT-4-Turbo used with a retrieval system incorrectly answered or refused to answer 81% of questions. While augmentation techniques such as using longer context window to feed in relevant evidence improve performance, they are unrealistic for enterprise settings due to increased latency and cannot support larger financial documents. We find that all models examined exhibit weaknesses, such as hallucinations, that limit their suitability for use by enterprises.
研究の動機と目的
- 検索を用いたオープンブック設定で財務質問応答における最先端 LLM の能力と限界を評価する。
- 領域関連・新規・指標生成クエリを網羅する堅牢で生態学的に妥当なデータセット(10,231 問)を提供する。
- 検索、長-context ウィンドウ、プロンプト手法が財務QAのモデル性能に与える影響を分析する。
- 幻覚、誤答、拒否といった一般的な失敗モードを特定し、企業ユースでの安全な展開を指針とする。
提案手法
- FinanceBench を 2015–2023 の 40 社の米国公開企業と 361 件の提出資料から構築し、10,231 問、回答、証拠トリプレットを作成する。
- 三問分類法: ドメイン関連、新規生成、指標生成の質問; 各提出資料から 14–18 の基礎指標を導出し、派生指標の質問を生成する。
- 設定とプロンプト順にわたる専門家ラベリング(正解/不正解/拒否)を含む 150 サンプルの人手評価セットを作成する。
- 16 のモデル構成(GPT-4、GPT-4-Turbo、Claude2、Llama2)を、5 つの設定(Closed Book、Oracle、Single Vector Store、Shared Vector Store、Long Context)と 2 つのプロンプト順(Context-First、Context-Last)で評価する。
- 正確性についてのモデル応答を注釈し、高品質な証拠、妥当な代替回答、幻覚、拒否、関連性の欠如といった定性的パターンを含める。
実験結果
リサーチクエスチョン
- RQ1取得ベースの証拠を用いたオープンブック財務QAで、現在のLLMはどの程度性能を発揮するか?
- RQ2単一ベクトルストアと共有ベクトルストアの取得戦略が財務QAの正確さとエラータイプに与える影響は?
- RQ3長文コンテキストのアクセスが財務質問の性能にどのように影響するか、特に指標生成クエリで?
- RQ4プロンプト順序とオラクルアクセスが構成全体でのモデル成功率にどう影響するか?
- RQ5LLMによる財務QAでの一般的な失敗モード(幻覚、拒否)は何か?
主な発見
| モデル構成 | 質問文脈構成 | 正解 | 不正解 | 回答不能 | 合計 |
|---|---|---|---|---|---|
| GPT-4-Turbo | Closed Book | 14 (9%) | 5 (3%) | 126 (88%) | 150 |
| Llama2 | Shared Vector Store | 29 (19%) | 104 (70%) | 17 (11%) | 150 |
| GPT-4-Turbo | Shared Vector Store | 29 (19%) | 20 (13%) | 101 (68%) | 150 |
| Llama2 | Single Vector Store | 62 (41%) | 81 (54%) | 7 (5%) | 150 |
| GPT-4-Turbo | Single Vector Store | 75 (50%) | 17 (11%) | 58 (39%) | 150 |
| Claude2 | Long Context | 114 (76%) | 32 (21%) | 4 (3%) | 150 |
| GPT-4-Turbo | Long Context | 118 (79%) | 26 (17%) | 6 (4%) | 150 |
| GPT-4-Turbo | Oracle | 128 (85%) | 22 (15%) | 0 (0%) | 150 |
- 検索も長文コンテキストもない場合、FinanceBench でモデルの性能は低い(例: GPT-4-Turbo の Closed Book は正答率 9% にとどまる)。
- 検索と長文コンテキストの拡張は性能を大幅に向上させ、Oracle 設定は 85%、長文コンテキスト設定はモデルにより 79–85% まで達する。
- 文書ごとに単一ベクトルストアを用いる設定が、単一の共有ベクトルストア設定より一般的に優れており、文書ごとのインデックスは精度を高める(例: GPT-4-Turbo で 50% 対 19%、Llama2 で 41% 対 19%)。
- Context-First プロンプトは、GPT-4-Turbo と Claude2 の長文コンテキスト性能を大幅に改善する(例: long-context で 78% vs 25%)。
- モデルは幻覚や誤答などの弱点を依然として示す。回答拒否は安全ではあるが、ライブ運用での制限を示す。
- 質問タイプによって性能は異なり、指標生成の質問は数値推論と跨文書検索のため最も難しい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。