[論文レビュー] BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment
BizFinBench.v2は、オフラインとオンラインのタスクを備えた authentic Chinese and U.S. market data を用いる大規模な二言語ベンチマークで、LLMの実世界の金融能力を評価します。
Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.
研究の動機と目的
- リアルワールドの中国・米国市場データを用いて authentic financial business capabilities を捉える。
- オフラインベンチマークとオンラインのリアルタイムの金融サービスニーズのギャップを埋める。
- デュアル・トラック評価フレームワークを提供する:Core Business Capabilities + Online Performance。
- 専門家に基づくエラ―分析を通じてLLMのコア能力の不足を特定する。
提案手法
- 実市場データから4つのコアビジネスシナリオにまたがる eight offline tasks と two online tasks を構築する。
- デュアル・トラック評価のため、Core Business Capabilities と Online Performance にタスクを整理する。
- データ品質とコンプライアンスを確保するために、プラットフォームクラスタリング、フロントラインレビュー、専門家クロスバリデーションの厳格な三段階品質管理を適用する。
- Stock Price Prediction および Portfolio Asset Allocation タスクにはリアルタイムのオンラインデータを使用する。
- zero-shot 設定で 21 LLMs(プロプライエタリおよびオープンソース)を評価し、SA および SPP タスクにはコンフォーマル予測を適用する。
- 再現性のあるオンライン評価のためにオープンソースの LLM 投資システムを提供する。

実験結果
リサーチクエスチョン
- RQ1オフライン設定において、中国・米国市場から抽出された authentic financial tasks に対して LLMs はどれほどの性能を示すか。
- RQ2Stock Price Prediction や資産配分などのオンライン・リアルタイム金融タスクで LLMs はどれほどの能力を示すか。
- RQ3実務的な金融ビジネス文脈での LLMs の一般的なエラーモードは何で、どう緩和できるか。
- RQ4現実の金融データで、一般-purpose LLMs と金融専門 LLMs の性能はどう異なるか。
主な発見
- ChatGPT-5 は主なオフラインタスクで平均精度が最高(61.5%)を達成。
- オンラインタスクでは DeepSeek-R1 が他の商用 LLMs を上回る。
- オープンソースモデル Qwen3-235B-A22B-Thinking-2507 が53.3%の平均精度でオープンソース結果をトップ。
- 金融専門家は基礎タスクで現行のLLMより高い基準能力(84.8%)を示す。
- エラー分析では five business dilemmas(Financial Semantic Deviation、Long-term Business Logic Discontinuity、MIAD、High-precision Computational Distortion、Financial Time-Series Logical Disorder)を示す。
- DeepSeek-R1 は資産配分指標(総リターン、シャープ比)などの商用モデルの中で優れた性能を示す一方で、いくつかのトップモデルはこのタスクで SPY ベンチマークを上回るのに苦労する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。