[논문 리뷰] BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios
BankMathBench는 일상 은행 업무에서의 수치 추론을 위해 세 가지 난이도 수준에 걸친 도메인 특화 벤치마크를 도입하고, 오픈소스 LLM의 미세조정과 도구 보강 미세조정이 은행 계산 정확도를 크게 향상시킴을 보여준다.
Large language models (LLMs)-based chatbots are increasingly being adopted in the financial domain, particularly in digital banking, to handle customer inquiries about products such as deposits, savings, and loans. However, these models still exhibit low accuracy in core banking computations-including total payout estimation, comparison of products with varying interest rates, and interest calculation under early repayment conditions. Such tasks require multi-step numerical reasoning and contextual understanding of banking products, yet existing LLMs often make systematic errors-misinterpreting product types, applying conditions incorrectly, or failing basic calculations involving exponents and geometric progressions. However, such errors have rarely been captured by existing benchmarks. Mathematical datasets focus on fundamental math problems, whereas financial benchmarks primarily target financial documents, leaving everyday banking scenarios underexplored. To address this limitation, we propose BankMathBench, a domain-specific dataset that reflects realistic banking tasks. BankMathBench is organized in three levels of difficulty-basic, intermediate, and advanced-corresponding to single-product reasoning, multi-product comparison, and multi-condition scenarios, respectively. When trained on BankMathBench, open-source LLMs exhibited notable improvements in both formula generation and numerical reasoning accuracy, demonstrating the dataset's effectiveness in enhancing domain-specific reasoning. With tool-augmented fine-tuning, the models achieved average accuracy increases of 57.6%p (basic), 75.1%p (intermediate), and 62.9%p (advanced), representing significant gains over zero-shot baselines. These findings highlight BankMathBench as a reliable benchmark for evaluating and advancing LLMs' numerical reasoning in real-world banking scenarios.
연구 동기 및 목표
- 일상적인 은행 맥락에서 도메인 특화 수치 추론 벤치마크의 필요성을 제시한다.
- 기초, 중간, 고급 은행 계산 작업을 포괄하는 다단계 데이터셋을 생성한다.
- 은행 시나리오에서 올바른 수식 생성 및 다단계 계산 수행 능력을 평가하고 개선할 수 있도록 한다.
- 다양한 언어 및 모델 규모에 걸친 수치 추론 성능에 대한 미세조정 및 도구 확장이 미치는 영향을 입증한다.
제안 방법
- 세 가지 난이도 수준에 걸친 질문–답변–추론 트리플렛을 생성하기 위해 GPT-4o와 o1-mini를 활용한 자동 데이터 생성 파이프라인.
- 기본 수준은 수학/LaTeX로, 중간 및 고급 수준은 실행 가능한 Python으로 이중 검증이 가능한 자동 해답 생성을 수행한다.
- 단계별 자연어 서술과 <think>…</think> 주석 및 <calc>/<result> 태그를 사용하여 추론에서 계산을 분리하는 추론 데이터 생산.
- 실무적 관련성과 수치 정확성을 보장하기 위한 은행 전문가의 전문가 검증.
- 표준 방식과 도구 보강 방식으로 BankMathBench에서 오픈소스 LLM을 (4-bit LoRA) 미세조정.
- 외부 계산기를 <calc>…</calc> 블록에 대해 호출하는 도구 보강으로 결과를 검증하고 정밀한 값을 얻는다.

실험 결과
연구 질문
- RQ1현존하는 LLM들이 기초, 중간, 고급 작업에 걸친 현실적인 은행 시나리오에서 수치 추론을 얼마나 잘 수행하는가?
- RQ2은행 계산에서 수식 생성 및 수치 정확도에 대한 도메인 특화 미세조정의 영향은 무엇인가?
- RQ3도구 보강 미세조정이 다단계 은행 계산 및 다수의 계산 결과의 통합을 추가로 향상시키는가?
- RQ4언어 및 모델 규모가 은행 수치 추론 작업의 성능에 어떻게 영향을 미치는가?
주요 결과
- 작업 난이도가 증가함에 따라 제로샷 정확도가 언어 전반에 걸쳐 감소한다.
- BankMathBench의 미세조정은 성능을 크게 향상시키며, 언어 전반에서 Qwen3-8B 및 DeepSeek-Math-Instruct-7B에서 뚜렷한 향상을 보인다.
- 도구 보강 미세조정은 SFT 대비 상당한 이점을 제공하며, 특히 중간 및 고급 작업과 한국어 데이터 세트에서 더 큰 이익을 준다.
- 중간값 절대오차가 미세조정으로 크게 감소하고 고급 데이터셋에서 도구 보강으로 거의 제로에 가까워진다.
- 한국어 전문 모델들(예: Kanana 시리즈)이 한국어 데이터에서 뛰어나고, 더 큰 다국어 모델은 언어 전반에서 더 넓게 성능이 향상된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.