Skip to main content
QUICK REVIEW

[論文レビュー] BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios

Yunseung Lee, Subin Kim|arXiv (Cornell University)|Feb 19, 2026
Topic Modeling被引用数 0
ひとこと要約

BankMathBench は、日常の銀行業務の数値推論のドメイン固有ベンチマークを三つの難易度レベルで導入し、オープンソース LLM のファインチューニングとツール拡張ファインチューニングが銀行計算の正確性を大幅に向上させることを示します。

ABSTRACT

Large language models (LLMs)-based chatbots are increasingly being adopted in the financial domain, particularly in digital banking, to handle customer inquiries about products such as deposits, savings, and loans. However, these models still exhibit low accuracy in core banking computations-including total payout estimation, comparison of products with varying interest rates, and interest calculation under early repayment conditions. Such tasks require multi-step numerical reasoning and contextual understanding of banking products, yet existing LLMs often make systematic errors-misinterpreting product types, applying conditions incorrectly, or failing basic calculations involving exponents and geometric progressions. However, such errors have rarely been captured by existing benchmarks. Mathematical datasets focus on fundamental math problems, whereas financial benchmarks primarily target financial documents, leaving everyday banking scenarios underexplored. To address this limitation, we propose BankMathBench, a domain-specific dataset that reflects realistic banking tasks. BankMathBench is organized in three levels of difficulty-basic, intermediate, and advanced-corresponding to single-product reasoning, multi-product comparison, and multi-condition scenarios, respectively. When trained on BankMathBench, open-source LLMs exhibited notable improvements in both formula generation and numerical reasoning accuracy, demonstrating the dataset's effectiveness in enhancing domain-specific reasoning. With tool-augmented fine-tuning, the models achieved average accuracy increases of 57.6%p (basic), 75.1%p (intermediate), and 62.9%p (advanced), representing significant gains over zero-shot baselines. These findings highlight BankMathBench as a reliable benchmark for evaluating and advancing LLMs' numerical reasoning in real-world banking scenarios.

研究の動機と目的

  • everyday banking コンテキストにおけるドメイン固有の数値推論ベンチマークの必要性を動機づける。
  • 基本・中級・上級の銀行計算タスクを捉えるマルチレベルデータセットを作成する。
  • 銀行業務のシナリオで正しい公式を生成し、複数ステップの計算を行う能力を評価・改善する。
  • 言語とモデルサイズを跨いだ数値推論性能に対するファインチューニングとツール拡張の影響を示す。

提案手法

  • GPT-4o および o1-mini を用いた質問-回答-推論トリプレットを三つの難易度レベルで作成する自動データ生成パイプライン。
  • 基本レベルは数学・LaTeX、中級・上級レベルは実行可能な Python による二重検証の自動解答生成。
  • 推論データ生成は段階的な自然言語と <think>…</think> 注釈、および <calc>/<result> タグを用いて計算と推論を分離。
  • 実務的関連性と数値的正確性を確保するために銀行専門家によるエキスパート検証。
  • BankMathBench でのオープンソース LLM のファインチューニング(4-bit LoRA)を標準およびツール拡張アプローチで実施。
  • 外部電卓を <calc>…</calc> ブロックで呼び出し、正確な結果を検証・取得するツール拡張。
Figure 1 : Examples of frequently asked customer queries in real banking branches.
Figure 1 : Examples of frequently asked customer queries in real banking branches.

実験結果

リサーチクエスチョン

  • RQ1現在の LLM が基本・中級・上級の現実的な銀行シナリオにおける数値推論をどれくらい正確に行えるか?
  • RQ2銀行計算における公式生成と数値精度に対するドメイン固有のファインチューニングの影響は?
  • RQ3ツール拡張ファインチューニングは複数ステップの銀行計算や複数の計算結果の統合をさらに改善するか?
  • RQ4言語とモデルサイズは銀行の数値推論タスクの性能にどう影響するか?

主な発見

  • ゼロショット精度はタスクの難易度が上がるにつれて言語を問わず低下する。
  • BankMathBench のファインチューニングは性能を大幅に改善し、Qwen3-8B および DeepSeek-Math-Instruct-7B が言語を問わず顕著な向上を示す。
  • ツール拡張ファインチューニングは SFT よりも大きな利得をもたらし、特に中級・上級タスクおよび韓国語データセットで効果が高い。
  • ファインチューニングで中央値絶対誤差が大幅に低下し、上級データセットではツール拡張により事実上ゼロに近づく。
  • 韓国語データに特化したモデル(例:Kanana 系列)は韓国語データで優れ、より大きな多言語モデルはより広く複数言語で性能を向上させる。
Figure 2 : Overview of the BankMathBench data generation pipeline, which comprises three stages: (a) question generation, (b) solution generation and automatic verification, and (c) reasoning generation.
Figure 2 : Overview of the BankMathBench data generation pipeline, which comprises three stages: (a) question generation, (b) solution generation and automatic verification, and (c) reasoning generation.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。